CN113808183A - 使用扭曲的复合估计乘积积分 - Google Patents

使用扭曲的复合估计乘积积分 Download PDF

Info

Publication number
CN113808183A
CN113808183A CN202110498869.3A CN202110498869A CN113808183A CN 113808183 A CN113808183 A CN 113808183A CN 202110498869 A CN202110498869 A CN 202110498869A CN 113808183 A CN113808183 A CN 113808183A
Authority
CN
China
Prior art keywords
function
warping
warping function
product
factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110498869.3A
Other languages
English (en)
Other versions
CN113808183B (zh
Inventor
D·A·哈特
M·M·法尔
T·穆勒
W·洛佩斯
M·麦圭尔
P·S·雪莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nvidia Corp
Original Assignee
Nvidia Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nvidia Corp filed Critical Nvidia Corp
Publication of CN113808183A publication Critical patent/CN113808183A/zh
Application granted granted Critical
Publication of CN113808183B publication Critical patent/CN113808183B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/17Function evaluation by approximation methods, e.g. inter- or extrapolation, smoothing, least mean square method
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/18Image warping, e.g. rearranging pixels individually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Operations Research (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Processing (AREA)

Abstract

公开了使用扭曲的复合估计乘积积分。对函数进行采样用于许多应用,诸如渲染图像。挑战是如何选择最佳样本以最小化计算并产生准确结果。替代方案是使用更大数量的样本,这些样本可能不被仔细地选择以试图增加准确度。对于为积分的函数,例如用于渲染图像的函数,可通过求积分的倒数来计算样本分布。遗憾的是,对于许多积分,计算积分的倒数既不容易也不实际。而是,可组合扭曲函数以提供准确地接近被积分的乘积的因子的样本分布。每个扭曲函数近似乘积的倒数项,同时考虑扭曲函数近似乘积中其他因子的影响。所选择的扭曲函数被定制或“拟合”以实现近似乘积的重要性采样。

Description

使用扭曲的复合估计乘积积分
技术领域
本公开涉及估计乘积积分,并且更具体地,涉及使用扭曲的复合(composition ofwarps)估计乘积积分。
背景技术
对函数采样用于许多应用,诸如渲染图像。其挑战是如何选择最佳样本以最小化被处理的样本的数量并产生准确结果。替代方案是使用更大数量的样本,这些样本可能不被仔细地选择以试图增加准确度。对于为积分的函数,可通过对积分求倒数(invert)来计算样本分布。用于对积分求倒数的常规方法可以被称为“反转(inversion)方法”。遗憾的是,对于许多积分,使用反转方法来计算积分的倒数既不容易也不实际。需要解决这些问题和/或与现有技术相关联的其他问题。
发明内容
公开了一种用于使用扭曲(warp)的复合对积分乘积进行采样的方法、计算机可读介质和系统。采样技术可用于对积分乘积进行采样以渲染图像。对于为积分乘积的函数,例如渲染方程,可通过使用组合扭曲函数(warp function)以提供准确地近似被积分的乘积的因子的样本分布来计算样本分布。每一扭曲函数近似反函数(inversion function)。所选择的扭曲函数被定制或“拟合”以实现近似乘积的重要性采样。
选择近似乘积积分的第一因子的第一扭曲函数及近似乘积积分的第二因子的第二扭曲函数。将第一扭曲函数的参数拟合至第二扭曲函数以产生经拟合的第一扭曲函数。将经拟合的第一扭曲函数和第二扭曲函数进行组合以产生样本分布,并且将样本分布应用于第一因子和第二因子的乘积以近似乘积积分。
附图说明
图1A示出了均匀随机采样函数。
图1B示出了非均匀随机采样函数。
图1C示出了乘积函数的重要性采样。
图1D示出了乘积因子的重要性采样和所得到的乘积函数的样本分布。
图1E示出了包括使用映射的均匀样本进行光线追踪的区域的图像。
图1F示出了根据一实施例的包括使用映射的扭曲的均匀样本进行光线追踪的区域的图像。
图2A示出了根据一实施例的用于产生最佳乘积扭曲的扭曲复合。
图2B示出了根据一实施例的对复合的扭曲进行拟合。
图2C示出了根据一实施例的用于使用扭曲的复合来估计乘积积分的方法的流程图。
图3示出了根据一实施例的并行处理单元。
图4A示出了根据一实施例的、图3的并行处理单元内的通用处理集群。
图4B示出了根据一实施例的、图3的并行处理单元的存储器分区单元。
图5A示出了根据一实施例的、图4A的流式多处理器。
图5B是根据一实施例的、使用图3的PPU实现的处理系统的概念图。
图5C示出了可以实现各种先前实施例的各种架构和/或功能的示例性系统。
图6是根据一实施例的由图3的PPU实现的图形处理管线的概念图。
具体实施方式
当积分函数难以评估时,如当不能计算闭型解时,蒙特卡罗积分可以用于使用随机数近似地对函数进行积分。更具体来说,函数f(x)的积分可由对应于N个随机数的位置xi处的样本值的总和近似。
Figure BDA0003055592790000031
针对n维均匀点ui∈[0,1),在每个样本位置xi=(u1,u2…,un)处评估函数。积分近似的准确度随着范围[0,1)内的样本数量N的增加而增加。
图1A示出了均匀随机采样函数f(xi)。均匀随机采样分布被用于对函数进行采样,使得每个样本具有相等的被选择的概率。每个实心圆表示函数被采样的位置xi。为了最准确地对函数f(xi)进行积分,均匀随机采样函数应该具有与函数f(xi)相匹配的样本分布。换言之,在f(xi)的值(在y轴上)最高的情况下,如在以x=0与x=1之间为中心的峰值附近,应存在更多的样本。如图1A所示,均匀随机采样分布提供随机样本位置xi的均匀分布。然而,许多样本位置在函数的峰值之外,因此结果(即,积分函数的估计)将具有一些误差。
积分函数与使用蒙特卡罗近似计算的估计之间的差或误差被称为方差。可通过使用重要性采样的常规技术来减少方差。代替采用N个均匀随机样本,样本的数目在函数的对最终结果贡献最大的部分中增加。具体地,对于图1A中所示的函数f(xi),与更接近0或1的区域相比,在峰值附近的范围[0,1)的中心需要更多的样本。
图1B示出了非均匀随机采样函数。使用非均匀随机采样分布来对函数进行采样,从而使得在函数的“重要”区域中选择更多的样本。为了最准确地对函数f(xi)进行积分,采样函数应当具有与函数f(xi)相匹配的分布,诸如非均匀随机采样分布。非均匀随机采样分布可以是用于执行重要性采样的概率密度函数(PDF)p(x)。方程(1)被修改以考虑N个样本的非均匀分布:
Figure BDA0003055592790000032
除以每个值的分布概率考虑了在高度采样区域中样本数量的增加。虽然使用重要性采样产生的估计是近似,但是与使用图1A中所示的均匀随机采样分布相比,其更准确。当使用均匀或重要性采样来渲染图像时,方差表现为噪声。
图1C示出了为函数A和B的乘积的函数的重要性采样。将函数A和B相乘产生乘积函数。在以下描述的上下文中,乘积是包括多个函数、因子、表达式或项的函数,所述多个函数、因子、表达式或项被相乘在一起以计算乘积。样本分布101可用于使用重要性采样来近似乘积的积分。样本分布101包括在该乘积的峰值附近的更多样本(其中该乘积具有最高值)和该值是最低时的更少的样本。样本分布101的密度与乘积的形状紧密匹配,从而与使用均匀随机样本分布相比减小了方差。
图1D示出了函数的重要性采样和所得到的乘积函数的样本分布。样本分布102是用于近似函数A的积分的重要性采样分布。样本分布103是用于近似函数B的积分的重要性采样分布。样本分布102和103的密度分别紧密匹配函数A和B的形状,从而为A和B的积分提供准确的近似。组合的样本分布102和103产生表示乘积的估计积分的分布的样本分布104。通过分别根据样本分布102和103估计函数A和B并且将估计相乘来计算所估计的乘积的积分。因为组合的样本分布(即,样本分布104)对于乘积的形状来说是差的匹配,所以与使用样本分布101相比,乘积的估计积分将具有更高的方差。
如图1D所示,蒙特卡罗重要性采样不提供对所有函数的准确估计。如本文进一步描述,可确定用于估计因子的样本分布,其在组合时更紧密地匹配因子的乘积的样本分布。例如,该技术可以用于确定函数A和B的样本分布,所述样本分布当被组合时类似于样本分布101,由此使得能够对重要性采样进行更准确的估计。
具体地,针对由乘积构成的被积函数(integrand)的改进的蒙特卡罗重要性采样技术可以应用于计算机图形渲染,其中直接采样在实际中常常是困难的。对于光线追踪,追踪从光源到相机(例如,视点)的路径。当包括在该路径中的光线与场景中的表面相交或入射到该表面时,该光线沿从该表面向外的方向被重定向或反射。重要性采样可以用于通过对围绕位于相交处的表面法线定向的半球进行采样,来选择光线的方向。双向散射分布函数(BSDF)可以定义光如何被表面散射。BSDF作为乘积(其是被积函数)的一个因子被包括在渲染方程中。可以使用改进的蒙特卡罗重要性采样技术来估计BSDF和渲染方程中的一个或更多个其他因子,以改进光线追踪图像的质量。
现在将阐述关于不同可选架构和特征的更多说明性信息,其中可以根据用户的期望使用扭曲的复合来实现乘积采样。应强烈注意的是,以下信息是出于说明性目的阐述的并且不应被解释为以任何方式进行限制。以下特征中的任一个可以可选地结合有或不排除所描述的其他特征。
图1E示出了图像115,该图像包括使用所映射的均匀分布样本进行光线追踪的区域110。可以使用主样本空间(PSS)中的一组均匀(例如,均匀分布的)样本112来生成每个像素。如图1E中所示,像素的PSS是包括一组均匀样本112的二维单位平方[0,1)2。注意,样本不是随机地分布在PSS内,而是样本根据均匀概率密度函数均匀地分布在PSS内。类似地,非均匀样本是根据非均匀PDF分布的样本。
使用映射[0,1)n
Figure BDA0003055592790000051
将一组均匀样本112从PSS映射到n维流形
Figure BDA0003055592790000053
(例如,形状的表面或BSDF)中,其中
Figure BDA0003055592790000052
被称为函数空间。映射产生被映射到函数空间中的样本114。使用被映射到函数空间中的均匀样本114来渲染图像区域110。使用类似地映射到函数空间中的相同或其他均匀样本来渲染图像115的其他区域。
给定PDF p(x),从PSS到函数空间的映射可以通过逆变换采样来找到,其中p被写为1维PDF的乘积,并且每一个1维PDF的累积分布函数(CDF)被求导并随后被反转。这种方法允许使用分层和低偏差的PSS点,这通常减少了误差。然而,对于渲染中的许多感兴趣的量来说,不可能计算PDF、1维CDF或1维CDF的倒数中的一个或更多个的封闭形式(closedform)。无法针对其计算封闭形式的函数可使用重要性取样来近似,例如使用扭曲的复合的蒙特卡罗重要性采样技术,如本文进一步描述的。
将在渲染应用的上下文中、并且更具体地在计算直接光照积分(direct lightingintegral)的光线追踪算法的上下文中解释所公开的技术。将理解,该技术不限于该特定应用,并且可被实现以估计乘积函数的其他积分。用于渲染图像的直接光照积分是在表示光线方向相对于表面上的位置的半球上的三个因子函数(其是被积函数)的乘积。直接光照积分计算点处的颜色,如由下式定义的:
Figure BDA0003055592790000061
第一因子考虑该点处的材料(BSDF),第二因子是从方向ωi照射该点的光量,并且第三因子是通过光入射方向和表面法线的余弦来衰减其他因子的余弦项。当使用蒙特卡罗重要性采样来计算直接光照积分时,方差在光线追踪图像中表现为噪声。可以增加针对每个点所取的样本数N以减小噪声。
通常,在被积分的函数中的重要项实际上不能被包括在采样分布中。例如,不存在用于对球面的余弦加权三角形基元进行均匀采样的已知分析技术。余弦项可在三角形的表面上显著变化。反过来,余弦项的变化导致包括余弦项的积分的蒙特卡罗估计中的方差增加,因为在重要性采样分布中不考虑它。PSS中缺失的因子g(x)被表达为:
Figure BDA0003055592790000062
在一定程度上,通过基于gPSS修改重要性采样分布,可以包括缺失的因子。如本文进一步描述,可在PSS中应用扭曲函数以修改重要性采样分布且减少方差。
图1F示出了根据一实施例的图像120,图像120包括使用映射的经扭曲的均匀样本进行光线追踪的区域125。与在图1E中示出的图像115中的噪声相比,图像120中的噪声的量减少。由此,与图像115相比,图像120的蒙特卡罗估计的方差也减小。代替直接将PSS中的样本集合112映射到函数空间中,样本集合112在映射操作之前在PSS内被扭曲。
反CDF,Q(x)=P-1(x),其是一维扭曲,在统计中被称为分位数函数。“扭曲(warp)”描述了非均匀地移位(displace)均匀随机样本以实现期望的概率分布的过程;扭曲根据其相关联的概率密度分布多个点,聚集或拉伸均匀分布的多个点而不改变这些点的相对顺序。相关术语在下表1中总结。
表1
Figure BDA0003055592790000071
在PSS中拟合扭曲函数w(u)以具有近似gPSS(u)的分布的反雅可比行列式Jw(u)。扭曲函数被应用于均匀样本112的集合以产生在PSS中具有非均匀分布的扭曲样本126的集合。在用P-1变换之前使均匀样本112的集合扭曲,产生近似于包含缺失的因子的想要的样本分布的所得样本分布,且减少方差。映射到函数空间128的扭曲样本的分布与映射到图1E中所示的函数空间的样本114相比减少了方差。
如果扭曲是精确的,意味着Jw(u)∝gPSS(u),那么所得分布精确地等于用于近似乘积的因子的想要的分布,例如方程(3)中的因子中的一者。虽然精确的扭曲通常不可能,但近似的扭曲可接近想要的分布,显著减少误差,且仅增加有限的计算成本。可用于拟合一个或更多个因子并减小乘积积分采样的方差的一些现有扭曲包括双线性、双二次方贝塞尔和加窗的可分离的柯西函数。这些变形函数是有效的,具有直接的实现方式,并且容易结合到现有的渲染系统中。可使用扭曲函数来实现高达6X的方差减小,用于许多渲染问题,且运行时间增加最小。
另外,可通过组合扭曲wi(...w2(w1(u)))来解释乘积积分中的多个因子。例如,当逆变换采样产生扭曲Q(x)=W(Z(x))时,两个扭曲W和Z可作为组合物串联应用,使得
Figure BDA0003055592790000072
因为扭曲用于重要性采样,所以它总是保持无偏差蒙特卡罗估计器。
评估组合扭曲的PDF
在以下描述的上下文中,扭曲被定义为连续的双射映射——关于根据概率密度p(x)分布的n维点
Figure BDA0003055592790000081
的概率密度。换言之,概率密度p(x)以扭曲项表达,其中x′=w(x)。复合扭曲被定义为
Figure BDA0003055592790000082
依据链规则,m个扭曲的复合的雅可比矩阵为各个扭曲的雅可比矩阵的乘积。因为PSS中的均匀样本被使用(即,p(x)=1),所以雅可比行列式的绝对值本身是经扭曲的样本的PDF:
Figure BDA0003055592790000083
可使用PSS扭曲来扩充基于反转方法的现有采样技术。因此,现有的采样技术(例如,BSDF采样或统一的发射器采样)用于示出增强的技术,假设
Figure BDA0003055592790000084
具有相关联的PDF ps(x)。为现有采样技术设定复合扭曲的最后扭曲,即
Figure BDA0003055592790000085
并且
Figure BDA0003055592790000086
所有较早扭曲是在[0,1)n上操作的PSS扭曲。如下文所描述,扭曲被拟合以使得总PDF pw(xm)近似渲染的被积函数。
给定扭曲集wi,用以生成经扭曲的样本及计算其PDF的算法在下表2中的算法1中给出。注意,在采样过程中使用
Figure BDA0003055592790000087
值的乘积和xi的连续扭曲值可以容易地计算出最终PDF。
表2
Figure BDA0003055592790000088
为了针对任意值
Figure BDA0003055592790000089
(例如,针对多个重要性采样)计算PDF,逆扭曲wi -1以倒序被应用于x,其中它们的雅可比行列式值沿路相乘在一起。这种方法在下表3中的算法2中示出。
表3
Figure BDA0003055592790000091
注意,为了应用算法2,必须能够反转wm。对于基于反转方法的采样技术,wm的反转是在每一维度中对应于该维度的一维CDF,其与采样算法一起导出。基于形状的均匀区域采样的采样算法的反转是直接的,但是一些现有技术采样算法的反转是未知的。
使用经扭曲的样本f(xm)/pw(xm)的函数f的积分的蒙特卡罗估计器在经扭曲的样本的PDF与f成比例时实现最小方差(目标):
Figure BDA0003055592790000092
考虑具有一个或更多个现有扭曲(例如,
Figure BDA0003055592790000094
和可能的一个或更多个PSS扭曲)的情况,应构成(compose)与f成比例的附加扭曲wi。对方程(6)执行的简单代数产生关于w1的最优条件:
Figure BDA0003055592790000093
因此,可以在任何位置i插入到扭曲的链中的附加的第i个扭曲理论上可以通过具有正确的反雅可比行列式完美地校正任何剩余的偏差w.r.t.f。
定制扭曲函数可以被组合以提供一样本分布,该样本分布准确地近似被积分的乘积的因子。每一扭曲函数近似一反函数。在一个实施例中,从定义的扭曲函数集中选择扭曲函数。所选择的扭曲函数然后被定制或“拟合”以实现近似乘积的重要性采样。原则上,可通过寻找其PDF与目标乘积分布和输入PDF的概率的乘积(反雅可比行列式)的比成比例的校正扭曲w2,使用扭曲复合来产生最佳乘积扭曲。
图2A示出了根据一实施例的用于产生最佳乘积扭曲的扭曲复合(warpcomposition)。使用一维示例来说明拟合复合的扭曲的过程。假设将采样乘积f(x)=p1(x)p2(x),但是p1(x)p2(x)不能被分析地反转以找到P-1。为了近似P-1,复合各个项w1 215和w2216的扭曲,并且从w1 215和w2 216的复合中采样近似p(x)的新分布。
将第一和第二概率分布函数PDF 205和206(p1和p2)相乘以产生PDF 210。PDF 205被逆变换以产生第一扭曲(w1)215。第一扭曲215是PDF 205的积分的倒数,而PDF 205是第一扭曲215的反导数。PDF 206为校正扭曲216(w2)的反导数。挑战是通过拟合来计算校正扭曲216。最佳乘积扭曲217是第一扭曲215和校正扭曲216的复合。当被逆变换时,最佳乘积扭曲217对应于PDF 218,理想上,PDF 218近似等于目标PDF 210。
拟合扭曲函数
存在两个阶段进行拟合,第一阶段是出于构造单个扭曲的目的的拟合。对函数进行采样并从那些样本构造双线性或双二次近似是第一阶段拟合的示例。拟合的第二阶段是从第一阶段调整拟合参数以考虑其他扭曲(如果和当复合多个扭曲时)。
在渲染期间,定制的扭曲函数可以在被着色的每个点处从零开始拟合。这样做消除了对维护附加数据结构的需要,并且避免了渲染期间在线学习的复杂性和计算开销;它特别适合于高度并行的体系架构,像GPU。进而,扭曲函数应该能够有效地拟合和评估。取而代之的是,在拟合和评估扭曲上花费的时间可以用于获取更多的样本而不扭曲,因此扭曲必须总体上更有效率以便是值得的。
为了使拟合尽可能简单,将最佳反雅可比行列式直接近似到常数因子(方程7的右手侧),而不是试图在单个步骤中导出良好的扭曲。为了执行拟合,可以使用允许封闭形式积分的简单参数函数。可将简单参数函数归一化且可获得有效近似反雅可比行列式,以及应用反转方法来找到对应扭曲。
可使用若干简单参数函数a(x)拟合扭曲。最简单的参数函数(双线性函数)由在参数域的角处的2×2值v{0,1}×{0,1}定义。该双二次方贝塞尔(Bézier)是更具表现性的;它使用3×3个控制点,但需要求解两个三次方程来应用扭曲。加窗的柯西函数允许在
Figure BDA0003055592790000111
中的给定点处放置峰值,而不必在[0,l)2内。
在将近似函数a(x)中的一者拟合到方程7的RHS之后,在[0,l)2上归一化经拟合的函数以获得对应的反雅可比行列式Jw。在一个维度中,给定Jw,可使用反转方法找到扭曲:对Jw积分,然后求结果的倒数。对于多维扭曲,无限数量的扭曲可具有Jw。在那种情况下,仅需要单个有效扭曲,这可以通过在除了一个之外的所有维度上边缘化(marginalize)并且应用反转方法来找出该维度中的一维扭曲而得到。在沿所选维度应用新找到的扭曲之后,可通过相同方法递归地找到剩余维度上的扭曲,忽略所有先前扭曲的维度,直到所有维度已被扭曲为止。
尝试用单个扭曲准确地近似方程7的整个右手侧通常是无用的。事实上,其可为反效率的,因为平滑参数函数可过拟合到方程7的高频变化,所述高频变化可仅存在于一些因子中。例如,在光传输中,f的可见性项可以是高频和不连续的,而缩短(foreshortening)项是平滑的低频余弦。
幸运的是,简单的工作循环在很大程度上避免了有问题的过拟合。可以选择多个表现良好的f因子—如BSDF和缩短项(但不是可见性项)—并且一个扭曲被拟合到这些因子中的每一个。利用此技术,忽略被忽视的因子,如果所有扭曲完美地拟合至其对应因子,则达成与目标分布(方程7的RHS)的比例性,且因此结果为零方差。另外,当一些扭曲次最佳地拟合时,其残差(其可能含有高频率)不妨碍将函数拟合到其他扭曲的能力。在下面,f表示方程7的右手侧,或忽略各个因子的方程7的右手侧的一些近似。
有可能从wi的PSS开始或从积分域开始拟合反雅可比行列式。这两种方式都可以是有效的,这取决于正拟合的扭曲。双线性和双二次扭曲可从wi的PSS开始逐点拟合:对于扭曲参数v,取xi=v,计算相应的xm,并评估f。
Figure BDA0003055592790000121
注意,参数扭曲函数a(x)使[0,1)2的角留在适当位置:因此,双线性近似函数可在角处拟合,同时忽略除了wm之外的所有后续扭曲。
对于柯西扭曲,从xm向后拟合工作可以是更有效的。例如,如果已知
Figure BDA0003055592790000122
的峰值在xm处,并且可以找到相应的点
Figure BDA0003055592790000123
用于柯西扭曲μ的峰值的放置。
给定柯西分布的峰值,σi参数可以独立地考虑每个维度来拟合。在单维中,对于柯西分布与峰值a成比例并且与值b成比例,距离峰值距离d,则σ是:
Figure BDA0003055592790000124
因此,在每个维度中从μ偏移的一个或更多个附加PSS点处评估
Figure BDA00030555927900001210
并且应用方程(9),当使用多个点时取最大值σ。
图2B示出了根据一实施例的拟合复合的扭曲。如之前结合图2A所解释的,将采样乘积f(x)=p1(x)p2(x),但是p1(x)p2(x)不能被分析地反转以找到P-1。为了近似P-1,复合各个项w1和w2的扭曲,并且从w1和w2的复合中采样近似p(x)的新分布。
如图2B所示,当应用第二项时,p1(x)205项的峰将向左偏置(偏移)。因此,对于扭曲的复合,首先应用第二因子p2(x)的扭曲w2,使得样本分布在左侧比右侧更密集,并且当应用第一因子p1(x)205的扭曲w1时,样本分布偏向左边,与乘积PDF 210不匹配。在这种情况下,为了确保p1(x)205项的峰终止在正确的位置,使用p1(x)205的替换物,该替换物被称为具有峰225的p1fit(x)224。p1fit(x)224的扭曲w1fit替换扭曲的复合中的扭曲w1。为了校正偏置并计算p1fit(x)224,第二因子的反扭曲(反扭曲
Figure BDA0003055592790000125
220)被应用于第一因子205中的峰值。换言之,第一项的采样函数应当考虑第二项的分布。因此,与复合的扭曲
Figure BDA0003055592790000126
相比,复合的扭曲
Figure BDA0003055592790000127
产生更准确的结果。
对PDF 206积分以产生反扭曲
Figure BDA0003055592790000128
220。P2是p2(x)项的CDF—对应于分布P2(x)的反扭曲
Figure BDA0003055592790000129
220。p1fit(x)224具有在μfit=P2(μ)处的中心,其中μ是柯西项p1(x)的峰的参数并且P2是线性项p2(x)的CDF。P2是对应于分布P2(x)的反扭曲
Figure BDA0003055592790000131
220。
为了拟合p1fit的峰225的宽度,评估J2(μ)——P2(μ)的反雅可比行列式。可替代地,只要p2是归一化的PDF,就可以直接评估p2(μ)以拟合宽度。拟合峰225的宽度揭示了在通过扭曲w2
Figure BDA0003055592790000132
之后该分布已经被挤压或拉伸了多少,并且有可能通过将拟合分布的峰225拉伸或挤压倒数量来补偿。可替代地,可以将μ的任一侧上的点通过P2映射并且然后计算它们的差。
如由w1和w2的复合所示,与当一个因子的重要性采样分布是对于其他因子的不良匹配时的复合w1fit和w2相比,结果可以具有高的方差。实际上,完美地校正所有偏差通常是不可能的,但根据复合中的后续扭曲来拟合包含在扭曲的复合中的每个扭曲可显著减少偏差。例如,如果预先存在的扭曲覆盖f的一些因子,如渲染方程中的BSDF,则可以针对其余因子(例如,缩短项)引入附加扭曲。通过调整特定于扭曲函数的参数来拟合每个扭曲。这些参数用于拟合2D函数a(x),如表4中列出的双线性、双二次方贝塞尔和窗口的可分离的柯西扭曲函数。
表4
Figure BDA0003055592790000133
PSS扭曲可应用于与直接光照有关的三个问题:光源的余弦加权的立体角采样、双线性小片(patch)的均匀面积采样,及采样BSDF与光源的乘积。当用蒙特卡罗积分从发射几何体估计直接照明时,均匀地采样由发射器对向的立体角比均匀地采样其表面积更有效。这样做消除了由于反平方距离因子以及光的法向量与出射光方向之间的余弦引起的被积函数的变化,这进而减小了方差。
甚至更好的是还将阴影点处的入射方向的余弦结合到光采样分布中。PSS扭曲可被应用以合并附加余弦因子,将其转换到PSS并拟合扭曲以近似余弦因子。在一实施例中,扭曲余弦加权的立体角采样与均匀立体角采样相比给出多达2.88倍的均方差(MSE)的减小,且运行时间具有最小增加。
将扭曲函数应用于[0,1)"中的主样本,其中每个扭曲近似对乘积分布的单个因子的采样。关键的见解是,各个因素通常表现良好并且在主样本空间中进行采样是便宜的(即使通过对其他因子进行采样的现有扭曲的失真),这导致实际的、有效的采样算法。采样方法是无偏差的、易于实现的、并且与多重重要性采样兼容。扭曲可用于由三角形和四边形复合的球面的投影立体角采样,用于双线性小片的等面积和投影立体角采样,以及用于有光泽的BSDF和面光源的乘积采样。对于一些现实世界的场景,可以获得超过1.6倍的效率改进。
图2C示出了根据一个实施例的用于使用扭曲的复合对乘积进行采样的方法250的流程图。尽管在处理单元的上下文中描述方法250,但方法250还可由程序、定制电路或由定制电路和程序的组合执行。例如,方法250可由GPU(图形处理单元)、CPU(中央处理单元)或能够使用至少一个扭曲对乘积进行采样的任何处理器(例如,并行处理单元300)执行。此外,本领域普通技术人员将理解,执行方法250的任何系统在本公开的实施例的范围和精神内。
在步骤255,选择近似乘积积分的第一因子的第一扭曲函数。在一实施例中,第一扭曲函数为反概率或分位数函数。在一实施例中,乘积积分是直接光照方程(3)。在步骤260,选择近似乘积积分的第二因子的第二扭曲函数。在步骤265,将第一扭曲函数的参数拟合至第二扭曲函数。在步骤270,组合经拟合的第一扭曲函数和第二扭曲函数以产生样本分布。在一个实施例中,拟合的第一扭曲函数和第二扭曲函数被组合为扭曲的复合。在步骤275,样本分布被应用于第一因子和第二因子的乘积以近似乘积积分。
使用扭曲的复合来计算采样分布可用于准确地近似乘积积分,其中每个扭曲对应于乘积中的至少一个因子。采样分布与依赖于多重重要性采样的现有技术兼容。使用每个都具有已知的反雅可比行列式及反扭曲的现有扭曲函数的拟合参数可使得能够实时执行以产生乘积积分的准确近似。具体来说,使用扭曲的复合可改进用于产生逼真场景(例如,利用面光、复杂材料、全局照明等的场景)的光线追踪技术的效率。
并行处理架构
图3示出了根据一个实施例的并行处理单元(PPU)300。在一个实施例中,PPU 300是在一个或更多个集成电路器件上实现的多线程处理器。PPU 300是设计用于并行处理许多线程的延迟隐藏体系架构。线程(即,执行线程)是被配置为由PPU 300执行的指令集的实例。在一个实施例中,PPU 300是图形处理单元(GPU),其被配置为实现用于处理三维(3D)图形数据的图形渲染管线,以便生成用于在显示设备(诸如液晶显示(LCD)设备)上显示的二维(2D)图像数据。在其他实施例中,PPU 300可以用于执行通用计算。尽管为了说明的目的本文提供了一个示例性并行处理器,但应特别指出的是,该处理器仅出于说明目的进行阐述,并且可使用任何处理器来补充和/或替代该处理器。
一个或更多个PPU 300可以被配置为加速数千个高性能计算(HPC)、数据中心和机器学习应用。PPU 300可被配置为加速众多深度学习系统和应用,包括自动驾驶汽车平台、深度学习、高精度语音、图像和文本识别系统、智能视频分析、分子模拟、药物研发、疾病诊断、天气预报、大数据分析、天文学、分子动力学模拟、金融建模、机器人技术、工厂自动化、实时语言翻译、在线搜索优化和个性化用户推荐,等等。
如图3所示,PPU 300包括输入/输出(I/O)单元305、前端单元315、调度器单元320、工作分配单元325、集线器330、交叉开关(Xbar)370、一个或更多个通用处理集群(GPC)350以及一个或更多个存储器分区单元380。PPU 300可以经由一个或更多个高速NVLink 310互连连接到主机处理器或其他PPU 300。PPU 300可以经由互连302连接到主机处理器或其他外围设备。PPU 300还可以连接到包括多个存储器设备的本地存储器304。在一个实施例中,本地存储器可以包括多个动态随机存取存储器(DRAM)设备。DRAM设备可以被配置为高带宽存储器(HBM)子系统,其中多个DRAM裸晶(die)堆叠在每个设备内。
NVLink 310互连使得系统能够扩展并且包括与一个或更多个CPU结合的一个或更多个PPU 300,支持PPU 300和CPU之间的高速缓存一致性,以及CPU主控。数据和/或命令可以由NVLink 310通过集线器330发送到PPU 300的其他单元或从其发送,例如一个或更多个复制引擎、视频编码器、视频解码器、电源管理单元等(未明确示出)。结合图5B更详细地描述NVLink 310。
I/O单元305被配置为通过互连302从主机处理器(未示出)发送和接收通信(例如,命令、数据等)。I/O单元305可以经由互连302直接与主机处理器通信,或通过一个或更多个中间设备(诸如内存桥)与主机处理器通信。在一个实施例中,I/O单元305可以经由互连302与一个或更多个其他处理器(例如,一个或更多个PPU 300)通信。在一个实施例中,I/O单元305实现外围组件互连高速(PCIe)接口,用于通过PCIe总线进行通信,并且互连302是PCIe总线。在替代的实施例中,I/O单元305可以实现其他类型的已知接口,用于与外部设备进行通信。
I/O单元305对经由互连302接收的数据包进行解码。在一个实施例中,数据包表示被配置为使PPU 300执行各种操作的命令。I/O单元305按照命令指定将解码的命令发送到PPU 300的各种其他单元。例如,一些命令可以被发送到前端单元315。其他命令可以被发送到集线器330或PPU 300的其他单元,诸如一个或更多个复制引擎、视频编码器、视频解码器、电源管理单元等(未明确示出)。换句话说,I/O单元305被配置为在PPU 300的各种逻辑单元之间和之中路由通信。
在一个实施例中,由主机处理器执行的程序在缓冲区中对命令流进行编码,该缓冲区向PPU 300提供工作量用于处理。工作量可以包括要由那些指令处理的许多指令和数据。缓冲区是存储器中可由主机处理器和PPU 300两者访问(例如,读/写)的区域。例如,I/O单元305可以被配置为经由通过互连302传输的存储器请求访问连接到互连302的系统存储器中的缓冲区。在一个实施例中,主机处理器将命令流写入缓冲区,然后向PPU 300发送指向命令流开始的指针。前端单元315接收指向一个或更多个命令流的指针。前端单元315管理一个或更多个流,从流读取命令并将命令转发到PPU 300的各个单元。
前端单元315耦合到调度器单元320,其配置各种GPC 350以处理由一个或更多个流定义的任务。调度器单元320被配置为追踪与由调度器单元320管理的各种任务相关的状态信息。状态可以指示任务被指派给哪个GPC 350,该任务是活动的还是不活动的,与该任务相关联的优先级等等。调度器单元320管理一个或更多个GPC 350上的多个任务的执行。
调度器单元320耦合到工作分配单元325,其被配置为分派任务以在GPC 350上执行。工作分配单元325可以追踪从调度器单元320接收到的若干调度的任务。在一个实施例中,工作分配单元325为每个GPC 350管理待处理(pending)任务池和活动任务池。待处理任务池可以包括若干时隙(例如,32个时隙),其包含被指派为由特定GPC 350处理的任务。活动任务池可以包括若干时隙(例如,4个时隙),用于正在由GPC 350主动处理的任务。当GPC350完成任务的执行时,该任务从GPC 350的活动任务池中逐出,并且来自待处理任务池的其他任务之一被选择和调度以在GPC 350上执行。如果GPC 350上的活动任务已经空闲,例如在等待数据依赖性被解决时,那么活动任务可以从GPC 350中逐出并返回到待处理任务池,而待处理任务池中的另一个任务被选择并调度以在GPC 350上执行。
工作分配单元325经由XBar(交叉开关)370与一个或更多个GPC 350通信。XBar370是将PPU 300的许多单元耦合到PPU 300的其他单元的互连网络。例如,XBar 370可以被配置为将工作分配单元325耦合到特定的GPC 350。虽然没有明确示出,但PPU 300的一个或更多个其他单元也可以经由集线器330连接到XBar 370。
任务由调度器单元320管理并由工作分配单元325分派给GPC 350。GPC 350被配置为处理任务并生成结果。结果可以由GPC 350内的其他任务消耗,经由XBar 370路由到不同的GPC 350,或者存储在存储器304中。结果可以经由分区单元380写入存储器304,存储器分区单元380实现用于从存储器304读取数据和向存储器304写入数据的存储器接口。结果可以通过NVLink310发送到另一个PPU 300或CPU。在一个实施例中,PPU 300包括数目为U的存储器分区单元380,其等于耦合到PPU 300的独立且不同的存储器304的存储器设备的数目。下面将结合图4B更详细地描述存储器分区单元380。
在一个实施例中,主机处理器执行实现应用程序编程接口(API)的驱动程序内核,其使得能够在主机处理器上执行一个或更多个应用程序以调度操作用于在PPU 300上执行。在一个实施例中,多个计算应用由PPU 300同时执行,并且PPU 300为多个计算应用程序提供隔离、服务质量(QoS)和独立地址空间。应用程序可以生成指令(例如,API调用),其使得驱动程序内核生成一个或更多个任务以由PPU 300执行。驱动程序内核将任务输出到正在由PPU 300处理的一个或更多个流。每个任务可以包括一个或更多个相关线程组,本文称为线程集(thread set)。在一个实施例中,线程集包括可以并行执行的32个相关线程。协作线程可以指代包括执行任务的指令并且可以通过共享存储器交换数据的多个线程。结合图5A更详细地描述线程和协作线程。
图4A示出了根据一个实施例的图3的PPU 300的GPC 350。如图4A所示,每个GPC350包括用于处理任务的多个硬件单元。在一个实施例中,每个GPC 350包括管线管理器410、预光栅操作单元(PROP)415、光栅引擎425、工作分配交叉开关(WDX)480、存储器管理单元(MMU)490以及一个或更多个数据处理集群(DPC)420。应当理解,图4A的GPC 350可以包括代替图4A中所示单元的其他硬件单元或除图4A中所示单元之外的其他硬件单元。
在一个实施例中,GPC 350的操作由管线管理器410控制。管线管理器410管理用于处理分配给GPC 350的任务的一个或更多个DPC 420的配置。在一个实施例中,管线管理器410可以配置一个或更多个DPC 420中的至少一个来实现图形渲染管线的至少一部分。例如,DPC 420可以被配置为在可编程流式多处理器(SM)440上执行顶点着色程序。管线管理器410还可以被配置为将从工作分配单元325接收的数据包路由到GPC 350中适当的逻辑单元。例如,一些数据包可以被路由到PROP 415和/或光栅引擎425中的固定功能硬件单元,而其他数据包可以被路由到DPC 420以供图元引擎435或SM 440处理。在一个实施例中,管线管理器410可以配置一个或更多个DPC 420中的至少一个以实现神经网络模型和/或计算管线。
PROP单元415被配置为将由光栅引擎425和DPC 420生成的数据路由到光栅操作(ROP)单元,结合图4B更详细地描述。PROP单元415还可以被配置为执行颜色混合的优化,组织像素数据,执行地址转换等。
光栅引擎425包括被配置为执行各种光栅操作的若干固定功能硬件单元。在一个实施例中,光栅引擎425包括设置引擎、粗光栅引擎、剔除引擎、裁剪引擎、精细光栅引擎和瓦片聚合引擎。设置引擎接收变换后的顶点并生成与由顶点定义的几何图元关联的平面方程。平面方程被发送到粗光栅引擎以生成图元的覆盖信息(例如,瓦片的x、y覆盖掩码)。粗光栅引擎的输出被发送到剔除引擎,其中与未通过z-测试的图元相关联的片段被剔除,并且被发送到裁剪引擎,其中位于视锥体之外的片段被裁剪掉。那些经过裁剪和剔除后留下来的片段可以被传递到精细光栅引擎,以基于由设置引擎生成的平面方程生成像素片段的属性。光栅引擎425的输出包括例如要由在DPC 420内实现的片段着色器处理的片段。
包括在GPC 350中的每个DPC 420包括M管线控制器(MPC)430、图元引擎435和一个或更多个SM 440。MPC 430控制DPC 420的操作,将从管线管理器410接收到的数据包路由到DPC 420中的适当单元。例如,与顶点相关联的数据包可以被路由到图元引擎435,图元引擎435被配置为从存储器304提取与顶点相关联的顶点属性。相反,与着色程序相关联的数据包可以被发送到SM 440。
SM 440包括被配置为处理由多个线程表示的任务的可编程流式处理器。每个SM440是多线程的并且被配置为同时执行来自特定线程组的多个线程(例如,32个线程)。在一个实施例中,SM 440实现SIMD(单指令、多数据)体系架构,其中线程组(例如,线程集)中的每个线程被配置为基于相同的指令集来处理不同的数据集。线程组中的所有线程都执行相同的指令。在另一个实施例中,SM 440实现SIMT(单指令、多线程)体系架构,其中线程组中的每个线程被配置为基于相同的指令集处理不同的数据集,但是其中线程组中的各个线程在执行期间被允许发散。在一个实施例中,为每个线程集维护程序计数器、调用栈和执行状态,当线程集内的线程发散时,使线程集和线程集中的串行执行之间的并发成为可能。在另一个实施例中,为每个单独的线程维护程序计数器、调用栈和执行状态,从而在线程集内和线程集之间的所有线程之间实现相等的并发。当为每个单独的线程维护执行状态时,执行相同指令的线程可以被收敛并且并行执行以获得最大效率。下面结合图5A更详细地描述SM440。
MMU 490提供GPC 350和存储器分区单元380之间的接口。MMU 490可以提供虚拟地址到物理地址的转换、存储器保护以及存储器请求的仲裁。在一个实施例中,MMU 490提供用于执行从虚拟地址到存储器304中的物理地址的转换的一个或更多个转换后备缓冲器(TLB)。
图4B示出了根据一个实施例的图3的PPU 300的存储器分区单元380。如图4B所示,存储器分区单元380包括光栅操作(ROP)单元450、二级(L2)高速缓存460和存储器接口470。存储器接口470耦合到存储器304。存储器接口470可以实现用于高速数据传输的32、64、128、1024位数据总线等。在一个实施例中,PPU 300合并了U个存储器接口470,每对存储器分区单元380有一个存储器接口470,其中每对存储器分区单元380连接到存储器设备304的对应的存储器设备。例如,PPU 300可以连接到多达Y个存储器设备304,诸如高带宽存储器堆叠或图形双数据速率版本5的同步动态随机存取存储器或其他类型的持久存储器。
在一个实施例中,存储器接口470实现HBM2存储器接口,并且Y等于U的一半。在一个实施例中,HBM2存储器堆叠位于与PPU 300相同的物理封装上,提供与常规GDDR5 SDRAM系统相比显著的功率高和面积节约。在一个实施例中,每个HBM2堆叠包括四个存储器裸晶并且Y等于4,其中HBM2堆叠包括每个裸晶两个128位通道,总共8个通道和1024位的数据总线宽度。
在一个实施例中,存储器304支持单错校正双错检测(SECDED)纠错码(ECC)以保护数据。对于对数据损毁敏感的计算应用程序,ECC提供了更高的可靠性。在大型集群计算环境中,PPU 300处理非常大的数据集和/或长时间运行应用程序,可靠性尤其重要。
在一个实施例中,PPU 300实现多级存储器层次。在一个实施例中,存储器分区单元380支持统一存储器以为CPU和PPU 300存储器提供单个统一的虚拟地址空间,使得虚拟存储器系统之间的数据能够共享。在一个实施例中,追踪PPU 300对位于其他处理器上的存储器的访问频率,以确保存储器页面被移动到更频繁地访问该页面的PPU 300的物理存储器。在一个实施例中,NVLink 310支持地址转换服务,其允许PPU 300直接访问CPU的页表并且提供由PPU 300对CPU存储器的完全访问。
在一个实施例中,复制引擎在多个PPU 300之间或在PPU 300与CPU之间传输数据。复制引擎可以为未映射到页表的地址生成页面错误。然后,存储器分区单元380可以服务页面错误,将地址映射到页表中,之后复制引擎可以执行传输。在常规系统中,针对多个处理器之间的多个复制引擎操作固定存储器(例如,不可分页),其显著减少了可用存储器。由于硬件分页错误,地址可以传递到复制引擎而不用担心存储器页面是否驻留,并且复制过程是否透明。
来自存储器304或其他系统存储器的数据可以由存储器分区单元380取回并存储在L2高速缓存460中,L2高速缓存460位于芯片上并且在各个GPC 350之间共享。如图所示,每个存储器分区单元380包括与对应的存储器304相关联的L2高速缓存460的一部分。然后可以在GPC 350内的多个单元中实现较低级高速缓存。例如,每个SM 440可以实现一级(L1)高速缓存。L1高速缓存是专用于特定SM 440的专用存储器。来自L2高速缓存460的数据可以被获取并存储在每个L1高速缓存中,以在SM 440的功能单元中进行处理。L2高速缓存460被耦合到存储器接口470和XBar 370。
ROP单元450执行与诸如颜色压缩、像素混合等像素颜色相关的图形光栅操作。ROP单元450还与光栅引擎425一起实现深度测试,从光栅引擎425的剔除引擎接收与像素片段相关联的样本位置的深度。测试与片段关联的样本位置相对于深度缓冲区中的对应深度的深度。如果片段通过样本位置的深度测试,则ROP单元450更新深度缓冲区并将深度测试的结果发送给光栅引擎425。将理解的是,存储器分区单元380的数量可以不同于GPC 350的数量,并且因此每个ROP单元450可以耦合到每个GPC 350。ROP单元450追踪从不同GPC 350接收到的数据包并且确定由ROP单元450生成的结果通过Xbar 370被路由到哪个GPC 350。尽管在图4B中ROP单元450被包括在存储器分区单元380内,但是在其他实施例中,ROP单元450可以在存储器分区单元380之外。例如,ROP单元450可以驻留在GPC 350或另一个单元中。
图5A示出了根据一个实施例的图4A的流式多处理器440。如图5A所示,SM 440包括指令高速缓存505、一个或更多个调度器单元510、寄存器文件520、一个或更多个处理核心550、一个或更多个特殊功能单元(SFU)552、一个或更多个加载/存储单元(LSU)554、互连网络580、共享存储器/L1高速缓存570。
如上所述,工作分配单元325调度任务以在PPU 300的GPC 350上执行。任务被分配给GPC 350内的特定DPC 420,并且如果该任务与着色器程序相关联,则该任务可以被分配给SM 440。调度器单元510接收来自工作分配单元325的任务并且管理指派给SM 440的一个或更多个线程块的指令调度。调度器单元510调度线程块以作为并行线程的线程集执行,其中每个线程块被分配至少一个线程集。在一个实施例中,每个线程集执行32个线程。调度器单元510可以管理多个不同的线程块,将线程集分配给不同的线程块,然后在每个时钟周期期间将来自多个不同的协作组的指令分派到各个功能单元(即,核心550、SFU 552和LSU554)。
协作组是用于组织通信线程组的编程模型,其允许开发者表达线程正在进行通信所采用的粒度,使得能够表达更丰富、更高效的并行分解。协作启动API支持线程块之间的同步性,以执行并行算法。常规的编程模型为同步协作线程提供了单一的简单结构:跨线程块的所有线程的栅栏(barrier)(例如,syncthreads()函数)。然而,程序员通常希望以小于线程块粒度的粒度定义线程组,并在所定义的组内同步,以集体的全组功能接口(collective group-wide function interface)的形式使能更高的性能、设计灵活性和软件重用。
协作组使得程序员能够在子块(例如,像单个线程一样小)和多块粒度处明确定义线程组并且执行集体操作,诸如协作组中的线程上的同步性。编程模型支持跨软件边界的干净组合,以便库和效用函数可以在他们本地环境中安全地同步,而无需对收敛进行假设。协作组图元启用合作并行的新模式,包括生产者-消费者并行、机会主义并行以及跨整个线程块网格的全局同步。
分派单元515被配置为向一个或更多个功能单元传送指令。在该实施例中,调度器单元510包括两个分派单元515,其使得能够在每个时钟周期期间调度来自相同线程集的两个不同指令。在替代实施例中,每个调度器单元510可以包括单个分派单元515或附加分派单元515。
每个SM 440包括寄存器文件520,其提供用于SM 440的功能单元的一组寄存器。在一个实施例中,寄存器文件520在每个功能单元之间被划分,使得每个功能单元被分配寄存器文件520的专用部分。在另一个实施例中,寄存器文件520在由SM 440执行的不同扭曲之间被划分。寄存器文件520为连接到功能单元的数据路径的操作数提供临时存储器。
每个SM 440包括L个处理核心550。在一个实施例中,SM 440包括大量(例如128个等)不同的处理核心550。每个核心550可以包括完全管线化的、单精度、双精度和/或混合精度处理单元,其包括浮点运算逻辑单元和整数运算逻辑单元。在一个实施例中,浮点运算逻辑单元实现用于浮点运算的IEEE 754-2008标准。在一个实施例中,核心550包括64个单精度(32位)浮点核心、64个整数核心、32个双精度(64位)浮点核心和8个张量核心(tensorcore)。
张量核心被配置为执行矩阵运算,并且在一个实施例中,一个或更多个张量核心被包括在核心550中。具体地,张量核心被配置为执行深度学习矩阵运算,诸如用于神经网络训练和推理的卷积运算。在一个实施例中,每个张量核心在4×4矩阵上运算并且执行矩阵乘法和累加运算D=A×B+C,其中A、B、C和D是4×4矩阵。
在一个实施例中,矩阵乘法输入A和B是16位浮点矩阵,而累加矩阵C和D可以是16位浮点或32位浮点矩阵。张量核心在16位浮点输入数据以及32位浮点累加上运算。16位浮点乘法需要64次运算,产生全精度的积,然后使用32位浮点与4×4×4矩阵乘法的其他中间积相加来累加。在实践中,张量核心用于执行由这些较小的元素建立的更大的二维或更高维的矩阵运算。API(诸如CUDA 9C++API)公开了专门的矩阵加载、矩阵乘法和累加以及矩阵存储运算,以便有效地使用来自CUDA-C++程序的张量核心。在CUDA层面,线程集级接口假定16×16尺寸矩阵跨越线程集的全部32个线程。
每个SM 440还包括执行特殊函数(例如,属性评估、倒数平方根等)的M个SFU 552。在一个实施例中,SFU 552可以包括树遍历单元,其被配置为遍历分层树数据结构。在一个实施例中,SFU 552可以包括被配置为执行纹理图过滤操作的纹理单元。在一个实施例中,纹理单元被配置为从存储器304加载纹理图(例如,纹理像素的2D阵列)并且对纹理图进行采样以产生经采样的纹理值,用于在由SM 440执行的着色器程序中使用。在一个实施例中,纹理图被存储在共享存储器/L1高速缓存470中。纹理单元实现纹理操作,诸如使用mip图(即,不同细节层次的纹理图)的过滤操作。在一个实施例中,每个SM 440包括两个纹理单元。
每个SM 440还包括N个LSU 554,其实现共享存储器/L1高速缓存570和寄存器文件520之间的加载和存储操作。每个SM 440包括将每个功能单元连接到寄存器文件520以及将LSU 554连接到寄存器文件520、共享存储器/L1高速缓存570的互连网络580。在一个实施例中,互连网络580是交叉开关,其可以被配置为将任何功能单元连接到寄存器文件520中的任何寄存器,以及将LSU 554连接到寄存器文件和共享存储器/L1高速缓存570中的存储器位置。
共享存储器/L1高速缓存570是片上存储器阵列,其允许数据存储和SM 440与图元引擎435之间以及SM 440中的线程之间的通信。在一个实施例中,共享存储器/L1高速缓存570包括128KB的存储容量并且在从SM 440到存储器分区单元380的路径中。共享存储器/L1高速缓存570可以用于高速缓存读取和写入。共享存储器/L1高速缓存570、L2高速缓存460和存储器304中的一个或更多个是后备存储。
将数据高速缓存和共享存储器功能组合成单个存储器块为两种类型的存储器访问提供最佳的总体性能。该容量可由程序用作不使用共享存储器的高速缓存。例如,如果将共享存储器配置为使用一半容量,则纹理和加载/存储操作可以使用剩余容量。在共享存储器/L1高速缓存570内的集成使共享存储器/L1高速缓存570起到用于流式传输数据的高吞吐量管线的作用,并且同时提供对频繁重用数据的高带宽和低延迟的访问。
当被配置用于通用并行计算时,与图形处理相比,可以使用更简单的配置。具体地,图3所示的固定功能图形处理单元被绕过,创建了更简单的编程模型。在通用并行计算配置中,工作分配单元325将线程块直接指派并分配给DPC 420。块中的线程执行相同的程序,使用计算中的唯一线程ID来确保每个线程生成唯一结果,使用SM 440执行程序并执行计算,使用共享存储器/L1高速缓存570以在线程之间通信,以及使用LSU 554通过共享存储器/L1高速缓存570和存储器分区单元380读取和写入全局存储器。当被配置用于通用并行计算时,SM 440还可以写入调度器单元320可用来在DPC 420上启动新工作的命令。
PPU 300可以被包括在台式计算机、膝上型计算机、平板电脑、服务器、超级计算机、智能电话(例如,无线、手持设备)、个人数字助理(PDA)、数码相机、运载工具、头戴式显示器、手持式电子设备等中。在一个实施例中,PPU 300包含在单个半导体衬底上。在另一个实施例中,PPU 300与一个或更多个其他器件(诸如附加PPU 300、存储器304、精简指令集计算机(RISC)CPU、存储器管理单元(MMU)、数字-模拟转换器(DAC)等)一起被包括在片上系统(SoC)上。
在一个实施例中,PPU 300可以被包括在图形卡上,图形卡包括一个或更多个存储器设备。图形卡可以被配置为与台式计算机的主板上的PCIe插槽接口。在又一个实施例中,PPU 300可以是包含在主板的芯片集中的集成图形处理单元(iGPU)或并行处理器。
示例性计算系统
具有多个GPU和CPU的系统被用于各种行业,因为开发者在应用(诸如人工智能计算)中暴露和利用更多的并行性。在数据中心、研究机构和超级计算机中部署具有数十至数千个计算节点的高性能GPU加速系统,以解决更大的问题。随着高性能系统内处理设备数量的增加,通信和数据传输机制需要扩展以支持该增加带宽。
图5B是根据一个实施例的使用图3的PPU 300实现的处理系统500的概念图。示例性系统500可以被配置为实现图2C中所示的方法250。处理系统500包括CPU 530、交换机510和多个PPU 300以及相应的存储器304。NVLink 310提供每个PPU 300之间的高速通信链路。尽管图5B中示出了特定数量的NVLink 310和互连302连接,但是连接到每个PPU 300和CPU530的连接的数量可以改变。交换机510在互连302和CPU 530之间接口。PPU 300、存储器304和NVLink 310可以位于单个半导体平台上以形成并行处理模块525。在一个实施例中,交换机510支持两个或更多个在各种不同连接和/或链路之间接口的协议。
在另一个实施例(未示出)中,NVLink 310在每个PPU 300和CPU 530之间提供一个或更多个高速通信链路,并且交换机510在互连302和每个PPU 300之间进行接口。PPU 300、存储器304和互连302可以位于单个半导体平台上以形成并行处理模块525。在又一个实施例(未示出)中,互连302在每个PPU 300和CPU 530之间提供一个或更多个通信链路,并且交换机510使用NVLink 310在每个PPU 300之间进行接口,以在PPU 300之间提供一个或更多个高速通信链路。在另一个实施例(未示出)中,NVLink 310在PPU 300和CPU 530之间通过交换机510提供一个或更多个高速通信链路。在又一个实施例(未示出)中,互连302在每个PPU 300之间直接地提供一个或更多个通信链路。可以使用与NVLink 310相同的协议将一个或更多个NVLink 310高速通信链路实现为物理NVLink互连或者片上或裸晶上互连。
在本说明书的上下文中,单个半导体平台可以指在裸晶或芯片上制造的唯一的单一的基于半导体的集成电路。应该注意的是,术语单个半导体平台也可以指具有增加的连接的多芯片模块,其模拟片上操作并通过利用常规总线实现方式进行实质性改进。当然,根据用户的需要,各种电路或器件还可以分开放置或以半导体平台的各种组合来放置。可选地,并行处理模块525可以被实现为电路板衬底,并且PPU 300和/或存储器304中的每一个可以是封装器件。在一个实施例中,CPU 530、交换机510和并行处理模块525位于单个半导体平台上。
在一个实施例中,每个NVLink 310的信令速率是20到25千兆位/秒,并且每个PPU300包括六个NVLink 310接口(如图5B所示,每个PPU 300包括五个NVLink 310接口)。每个NVLink 310在每个方向上提供25千兆位/秒的数据传输速率,其中六条链路提供300千兆位/秒。当CPU 530还包括一个或更多个NVLink 310接口时,NVLink 310可专门用于如图5B所示的PPU到PPU通信,或者PPU到PPU以及PPU到CPU的某种组合。
在一个实施例中,NVLink 310允许从CPU 530到每个PPU 300的存储器304的直接加载/存储/原子访问。在一个实施例中,NVLink 310支持一致性操作,允许从存储器304读取的数据被存储在CPU 530的高速缓存分层结构中,减少了CPU 530的高速缓存访问延迟。在一个实施例中,NVLink 310包括对地址转换服务(ATS)的支持,允许PPU 300直接访问CPU530内的页表。一个或更多个NVLink 310还可以被配置为以低功率模式操作。
图5C示出了示例性系统565,其中可以实现各种先前实施例的各种体系架构和/或功能。示例性系统565可以被配置为实现图2C中所示的方法250。
如图所示,提供系统565,其包括连接到通信总线575的至少一个中央处理单元530。通信总线575可以使用任何合适的协议来实现,诸如PCI(外围组件互连)、PCI-Express、AGP(加速图形端口)、超传输或任何其他总线或一个或更多个点对点通信协议。系统565还包括主存储器540。控制逻辑(软件)和数据被存储在主存储器540中,主存储器540可以采取随机存取存储器(RAM)的形式。
系统565还包括输入设备560、并行处理系统525和显示设备545,例如常规CRT(阴极射线管)、LCD(液晶显示器)、LED(发光二极管)、等离子显示器等。可以从输入设备560(例如键盘、鼠标、触摸板、麦克风等)接收用户输入。前述模块和/或设备中的每一个甚至可以位于单个半导体平台上以形成系统565。可选地,根据用户的需要,各个模块还可以分开放置或以半导体平台的各种组合来放置。
此外,系统565可以出于通信目的通过网络接口535耦合到网络(例如,电信网络、局域网(LAN)、无线网络、广域网(WAN)(诸如因特网)、对等网络、电缆网络等)。
系统565还可以包括辅助存储(未示出)。辅助存储610包括例如硬盘驱动器和/或可移除存储驱动器、代表软盘驱动器、磁带驱动器、光盘驱动器、数字多功能盘(DVD)驱动器、记录设备、通用串行总线(USB)闪存。可移除存储驱动器以众所周知的方式从可移除存储单元读取和/或写入可移除存储单元。
计算机程序或计算机控制逻辑算法可以存储在主存储器540和/或辅助存储中。这些计算机程序在被执行时使得系统565能够执行各种功能。存储器540、存储和/或任何其他存储是计算机可读介质的可能示例。
各种在先附图的体系架构和/或功能可以在通用计算机系统、电路板系统、专用于娱乐目的的游戏控制台系统、专用系统和/或任何其他所需的系统的上下文中实现。例如,系统565可以采取台式计算机、膝上型计算机、平板电脑、服务器、超级计算机、智能电话(例如,无线、手持设备)、个人数字助理(PDA)、数字相机、运载工具、头戴式显示器、手持式电子设备、移动电话设备、电视机、工作站、游戏控制台、嵌入式系统和/或任何其他类型的逻辑的形式。
虽然上面已经描述了各种实施例,但是应该理解,它们仅以示例的方式呈现,而不是限制。因此,优选实施例的宽度和范围不应受任何上述示例性实施例的限制,而应仅根据所附权利要求及其等同物来限定。
图形处理管线
在一个实施例中,PPU 300包括图形处理单元(GPU)。PPU 300被配置为接收指定用于处理图形数据的着色程序的命令。图形数据可以被定义为一组图元,例如点、线、三角形、四边形、三角形带等。典型地,图元包括指定图元的多个顶点(例如,在模型空间坐标系中)的数据以及与图元的每个顶点相关联的属性。PPU 300可以被配置为处理图元以生成帧缓冲区(例如,用于显示器的像素中的每一个的像素数据)。
应用程序将场景的模型数据(例如,顶点和属性的集合)写入存储器(诸如系统存储器或存储器304)。模型数据定义可能在显示器上可见的对象中的每一个。然后应用程序对驱动程序内核进行API调用,其请求要被渲染和显示的模型数据。驱动程序内核读取模型数据并将命令写入一个或更多个流以执行操作来处理模型数据。这些命令可以参考要在PPU 300的SM 440上实现的不同着色程序,包括顶点着色、外壳着色、域着色、几何着色和像素着色中的一个或更多个。例如,SM 440中的一个或更多个可以被配置为执行顶点着色程序,其处理由模型数据定义的多个顶点。在一个实施例中,不同的SM 440可以被配置为同时执行不同的着色程序。例如,SM 440的第一子集可以被配置为执行顶点着色程序,而SM 440的第二子集可以被配置为执行像素着色程序。SM 440的第一子集处理顶点数据以产生经处理的顶点数据,并将经处理的顶点数据写入L2高速缓存460和/或存储器304。在经处理的顶点数据被光栅化(例如,从三维数据转换成屏幕空间中的二维数据)以产生片段数据之后,SM 440的第二子集执行像素着色以产生经处理的片段数据,然后将其与其他经处理的片段数据混合并被写入存储器304中的帧缓冲区。顶点着色程序和像素着色程序可以同时执行,以管线方式处理来自同一场景的不同数据,直到该场景的所有模型数据已经被渲染到帧缓冲区。然后,帧缓冲区的内容被传送到显示控制器以在显示设备上显示。
图6是根据一个实施例的由图3的PPU 300实现的图形处理管线600的概念图。图形处理管线600是被实现以从3D几何数据生成2D计算机生成图像的处理步骤的抽象流程图。众所周知,管线架构可以通过将操作分成多个阶段来更高效地执行长延迟操作,其中每个阶段的输出耦合到下一个连续阶段的输入。因此,图形处理管线600接收从图形处理管线600的一个阶段传送到下一阶段的输入数据601,以生成输出数据602。在一个实施例中,图形处理管线600可表示由
Figure BDA0003055592790000281
API定义的图形处理管线。作为选择,图形处理管线600可以在先前附图和/或一个或更多个任何后续附图的功能和架构的上下文中实现。
如图6所示,图形处理管线600包括包含多个阶段的管线架构。这些阶段包括但不限于数据组装阶段610、顶点着色阶段620、图元组装阶段630、几何着色阶段640、视口缩放、剔除和裁剪(viewport scale,cull,and clip,VSCC)阶段650、光栅化阶段660、片段着色阶段670和光栅操作阶段680。在一个实施例中,输入数据601包括命令,其配置处理单元以实现图形处理管线600的阶段,并配置几何图元(例如,点、线、三角形、四边形、三角形带或扇形等)以由这些阶段处理。输出数据602可以包括像素数据(即,颜色数据),其被复制到存储器中的帧缓冲区或其他类型的表面数据结构中。
数据组装阶段610接收输入数据601,其指定用于高阶表面、图元等的顶点数据。数据组装阶段610收集临时存储或队列中的顶点数据,诸如通过从主机处理器接收包括指向存储器中的缓冲区的指针的命令并从该缓冲区读取顶点数据。顶点数据然后被传送到顶点着色阶段620以进行处理。
顶点着色阶段620通过对顶点中的每一个执行一次一组操作(例如,顶点着色器或程序)来处理顶点数据。顶点可以例如被指定为与一个或更多个顶点属性(例如,颜色、纹理坐标、表面法线等)相关联的4坐标向量(例如,<x,y,z,w>)。顶点着色阶段620可以操纵各个顶点属性,诸如位置、颜色、纹理坐标等。换句话说,顶点着色阶段620对与顶点相关联的顶点坐标或其他顶点属性执行操作。这些操作通常包括光照操作(例如,修改顶点的颜色属性)和变换操作(例如,修改顶点的坐标空间)。例如,可以使用对象坐标空间中的坐标来指定顶点,其通过将坐标乘以矩阵进行变换,该矩阵将坐标从对象坐标空间转换到世界空间或归一化设备坐标(normalized-device-coordinate,NCD)空间。顶点着色阶段620生成被传送到图元组装阶段630的经变换的顶点数据。
图元组装阶段630收集由顶点着色阶段620输出的顶点并且将顶点分复合几何图元以由几何着色阶段640处理。例如,图元组装阶段630可以被配置为将每三个连续顶点分组为用于传送到几何着色阶段640的几何图元(例如,三角形)。在一些实施例中,特定顶点可以被重新用于连续几何图元(例如,三角形带中的两个连续三角形可以共享两个顶点)。图元组装阶段630将几何图元(例如,相关联的顶点的集合)传送到几何着色阶段640。
几何着色阶段640通过对几何图元执行一组操作(例如,几何着色器或程序)来处理几何图元。曲面细分(tessellation)操作可以从每个几何图元生成一个或更多个几何图元。换言之,几何着色阶段640可以将每个几何图元细分为两个或更多个几何图元的更精细的网格,以由图形处理管线600的其余部分进行处理。几何着色阶段640将几何图元传送到视口SCC阶段650。
在一个实施例中,图形处理管线600可以在流式多处理器和顶点着色阶段620、图元组装阶段630、几何着色阶段640、片段着色阶段670和/或与其相关联的硬件/软件内操作,可顺序地执行处理操作。一旦顺序处理操作完成,在一个实施例中,视口SCC阶段650可以利用数据。在一个实施例中,由图形处理管线600中的阶段的一个或更多个处理的图元数据可以被写入高速缓存(例如,L1高速缓存、顶点高速缓存等)中。在这种情况下,在一个实施例中,视口SCC阶段650可以访问高速缓存中的数据。在一个实施例中,视口SCC阶段650和光栅化阶段660被实现为固定功能电路。
视口SCC阶段650执行几何图元的视口缩放、剔除和裁剪。正被渲染的每个表面都与抽象相机位置相关联。相机位置表示正观看该场景的观看者的位置并定义了包围该场景的对象的视锥体。视锥体可以包括观看平面、后平面和四个裁剪平面。完全位于视锥体之外的任何几何图元都可被剔除(例如丢弃),因为这些几何图元将不会对最终渲染的场景做出贡献。部分位于视锥体内并且部分位于视锥体外的任何几何图元可以被裁剪(例如,转换为被包围在视锥体内的新的几何图元)。此外,可以基于视锥体的深度来对每个几何图元进行缩放。然后将所有可能可见的几何图元传送到光栅化阶段660。
光栅化阶段660将3D几何图元转换成2D片段(例如,能够用于显示等)。光栅化阶段660可以被配置为利用几何图元的顶点来设置一组平面方程,从中可以内插各种属性。光栅化阶段660还可以计算多个像素的覆盖掩码,其指示像素的一个或更多个样本位置是否拦截几何图元。在一个实施例中,还可以执行z测试以确定几何图元是否被已经被光栅化的其他几何图元遮挡。光栅化阶段660生成片段数据(例如,与每个被覆盖像素的特定样本位置相关联的内插顶点属性),其被传送到片段着色阶段670。
片段着色阶段670通过对片段中的每一个执行一组操作(例如,片段着色器或程序)来处理片段数据。片段着色阶段670可以生成片段的像素数据(例如,颜色值),诸如通过使用片段的内插纹理坐标执行光照操作或采样纹理图。片段着色阶段670生成像素数据,其被发送到光栅操作阶段680。
光栅操作阶段680可对像素数据执行各种操作,诸如执行阿尔法测试、模板测试(stencil test)以及将像素数据与对应于与像素相关联的其他片段的其他像素数据混合。当光栅操作阶段680已经完成对像素数据(例如,输出数据602)的处理时,可以将像素数据写入渲染目标,诸如帧缓冲区、颜色缓冲区等。
应当领会,除上述阶段中的一个或更多个以外或代替上述阶段中的一个或更多个,一个或更多个额外的阶段可以被包括在图形处理管线600中。抽象图形处理管线的各种实现方式可以实现不同的阶段。此外,在一些实施例中,上述阶段中的一个或更多个可以从图形处理管线中排除(诸如几何着色阶段640)。其他类型的图形处理管线被认为是在本公开的范围内所构想的。此外,图形处理管线600的任何阶段可以由图形处理器(诸如PPU300)内的一个或更多个专用硬件单元来实现。图形处理管线600的其他阶段可以由可编程硬件单元(诸如PPU 300的SM 440)来实现。
图形处理管线600可以经由由主机处理器(诸如CPU)执行的应用程序来实现。在一个实施例中,设备驱动程序可以实现应用程序编程接口(API),其定义可以被应用程序利用以生成用于显示的图形数据的各种功能。设备驱动程序是软件程序,其包括控制PPU 300的操作的多个指令。API为程序员提供抽象,其允许程序员利用专用图形硬件(诸如PPU 300)来生成图形数据而不要求程序员利用PPU 300的特定指令集。应用程序可以包括被路由到PPU 300的设备驱动程序的API调用。设备驱动程序解释API调用并执行各种操作以响应API调用。在一些情况下,设备驱动程序可以通过在CPU上执行指令来执行操作。在其他情况下,设备驱动程序可以至少部分地通过利用CPU和PPU 300之间的输入/输出接口在PPU 300上启动操作来执行操作。在一个实施例中,设备驱动程序被配置为利用PPU 300的硬件来实现图形处理管线600。
可以在PPU 300内执行各种程序以便实现图形处理管线600的各个阶段。例如,设备驱动程序可以启动PPU 300上的内核以在一个SM 440(或多个SM 440)上执行顶点着色阶段620。设备驱动程序(或由PPU 300执行的初始内核)还可启动PPU 300上的其他内核以执行图形处理管线600的其他阶段,诸如几何着色阶段640和片段着色阶段670。另外,图形处理管线600的阶段中的一些可以在固定单元硬件(诸如在PPU 300内实现的光栅器或数据组装器)上实现。应当领会,在被SM 440上的后续内核处理之前,来自一个内核的结果可以由一个或更多个中间固定功能硬件单元处理。
应用本文公开的技术中的一项或更多项生成的图像可以显示在监视器或其他显示设备上。在一些实施例中,显示设备可直接耦合到生成或渲染图像的系统或处理器。在其他实施例中,显示设备可例如经由网络间接耦合到系统或处理器。此类网络的示例包括互联网、移动电信网络、WIFI网络、以及任何其他有线和/或无线联网系统。当显示设备间接耦合时,由系统或处理器生成的图像可经由网络流式传输到显示设备。此类流式传输允许例如渲染图像的视频游戏或其他应用在服务器上或在数据中心中执行,并且所渲染的图像被传送并在与服务器或数据中心物理地分开的一个或更多个用户设备(诸如计算机、视频游戏控制台、智能电话、其他移动设备等)上显示。所以,本文公开的技术可以应用于增强流式传输的图像以及增强流传输图像的服务,诸如NVIDIA GeForce Now(GFN)、Google Stadia等。
机器学习
在处理器(诸如PPU 300)上开发的深度神经网络(DNN)已经用于各种使用情况:从自驾车到更快药物开发,从在线图像数据库中的自动图像字幕到视频聊天应用中的智能实时语言翻译。深度学习是一种技术,它建模人类大脑的神经学习过程,不断学习,不断变得更聪明,并且随着时间的推移更快地传送更准确的结果。一个孩子最初是由成人教导,以正确识别和分类各种形状,最终能够在没有任何辅导的情况下识别形状。同样,深度学习或神经学习系统需要在物体识别和分类方面进行训练,以便在识别基本物体、遮挡物体等同时还有为物体分配情景时变得更加智能和高效。
在最简单的层面上,人类大脑中的神经元查看接收到的各种输入,将重要性水平分配给这些输入中的每一个,并且将输出传递给其他神经元以进行处理。人造神经元或感知器是神经网络的最基本模型。在一个示例中,感知器可以接收一个或更多个输入,其表示感知器正被训练为识别和分类的对象的各种特征,并且在定义对象形状时,这些特征中的每一个基于该特征的重要性赋予一定的权重。
深度神经网络(DNN)模型包括许多连接节点(例如,感知器、玻尔兹曼机器、径向基函数、卷积层等)的多个层,其可以用大量输入数据来训练以快速高精度地解决复杂问题。在一个示例中,DNN模型的第一层将汽车的输入图像分解为各个部分,并查找基本图案(诸如线条和角)。第二层组装线条以寻找更高水平的图案,诸如轮子、挡风玻璃和镜子。下一层识别运载工具类型,最后几层为输入图像生成标签,识别特定汽车品牌的型号。
一旦DNN被训练,DNN就可以被部署并用于在被称为推理(inference)的过程中识别和分类对象或图案。推理的示例(DNN从给定输入中提取有用信息的过程)包括识别沉积在ATM机中的支票存款上的手写数字、识别照片中朋友的图像、向超过五千万用户提供电影推荐、识别和分类不同类型的汽车、行人和无人驾驶汽车中的道路危险、或实时翻译人类言语。
在训练期间,数据在前向传播阶段流过DNN,直到产生预测为止,其指示对应于输入的标签。如果神经网络没有正确标记输入,则分析正确标签和预测标签之间的误差,并且在后向传播阶段期间针对每个特征调整权重,直到DNN正确标记该输入和训练数据集中的其他输入为止。训练复杂的神经网络需要大量的并行计算性能,包括由PPU 300支持的浮点乘法和加法。与训练相比,推理的计算密集程度比训练更低,是一个延迟敏感过程,其中经训练的神经网络应用于它以前没有见过的新的输入,以进行图像分类、翻译语音以及通常推理新的信息。
神经网络严重依赖于矩阵数学运算,并且复杂的多层网络需要大量的浮点性能和带宽来提高效率和速度。采用数千个处理核心,针对矩阵数学运算进行了优化,并传送数十到数百TFLOPS的性能,PPU 300是能够传送基于深度神经网络的人工智能和机器学习应用所需性能的计算平台。
此外,应用本文公开的技术中的一项或多项生成的图像可以用于训练、测试或证明用于识别现实世界中的对象和环境的DNN。此类图像可包含道路、工厂、建筑物、城市环境、农村环境、人、动物和任何其他物理对象或真实世界环境的场景。此类图像可用于训练、测试或证明在机器或机器人中采用以操纵、处理或修改现实世界中的物理对象的DNN。此外,此类图像可以用于训练、测试或证明在自动交通工具中采用的DNN,以便在真实世界中导航和移动交通工具。另外,应用本文公开的一种或更多种技术生成的图像可用于向这种机器、机器人和车辆的用户传达信息。
应注意的是,本文描述的技术可以被体现在存储在计算机可读介质中的可执行指令中,以供基于处理器的指令执行机器、系统、设备或装置使用或与其结合使用。所属领域的技术人员将了解,对于一些实施例,可包含不同类型的计算机可读介质用于存储数据。如本文中所使用的,“计算机可读介质”包括用于存储计算机程序的可执行指令的任何合适的介质中的一个或更多个,从而使得指令执行机器、系统、装置或设备可以从计算机可读介质读取(或获取)指令并且执行用于实现所描述的实施例的指令。合适的存储格式包括电子、磁、光和电磁格式中的一个或更多个。常规示范性计算机可读介质的非穷举列表包括:便携式计算机盘;随机存取存储器(RAM);只读存储器(ROM);可擦除可编程只读存储器(EPROM);闪存设备;以及光存储设备,包括便携式紧致盘(CD)、便携式数字视频盘(DVD)等。
应理解的是,附图中所示出的部件的布置是出于说明性目的并且其他布置是可能的。例如,本文中所描述的元件中的一个或更多个可整体或部分地实现为电子硬件组件。其他元件可用软件、硬件或软件和硬件的组合中来实现。此外,可以组合这些其他元件中的一些或全部,可以完全省略一些元件,并且可以在仍然实现本文所描述的功能的同时添加附加组件。由此,本文描述的主题可以许多不同的变型来体现,并且所有这样的变型都被考虑在权利要求的范围内。
为了便于理解本文描述的主题,就动作序列而言描述了许多方面。所属领域的技术人员将认识到,不同动作可由专用电路或电路、由一个或更多个处理器执行的程序指令或由两者的组合来执行。本文中对任何动作序列的描述并不旨在暗示必须遵循所描述的用于执行该序列的特定顺序。除非本文另有指示或上下文明显矛盾,否则本文所述的所有方法都可以任何合适的顺序进行。
术语“一个(a)”、一种“(an)”和“该(the)”以及在描述该主题的上下文中(特别是在以下权利要求的上下文中)的类似引用的使用应被解释为覆盖单数和复数两者,除非本文另有指示或与上下文明显矛盾。术语“至少一个”跟随有一个或更多个项目的列表(例如,“A和B中的至少一个”)的使用应被解释为意指选自所列出的项目(A或B)的一个项目或所列出的项目(A和B)中的两个或更多个的任何组合,除非本文另有说明或与上下文明显矛盾。此外,前面的描述仅出于说明的目的,而不是出于限制的目的,因为所寻求的保护范围由阐述的权利要求及其任何等同物限定。本文提供的任何和所有示例或示例性语言(例如,“诸如”)的使用仅旨在更好地说明该主题,并且不对该主题的范围造成限制,除非另外要求保护。在权利要求书和书面说明书中使用术语“基于”和指示引起结果的条件的其他类似短语并不旨在排除引起该结果的任何其他条件。说明书中的语言不应被解释为指示任何未要求保护的元素对于如所要求保护的本发明的实践是必不可少的。

Claims (20)

1.一种计算机实现的方法,包括:
选择近似乘积积分的第一因子的第一扭曲函数;
选择近似所述乘积积分的第二因子的第二扭曲函数;
将所述第一扭曲函数的参数拟合至所述第二扭曲函数以产生经拟合的第一扭曲函数;
组合所述经拟合的第一扭曲函数和所述第二扭曲函数以产生样本分布;以及
将所述样本分布应用于所述第一因子和所述第二因子的乘积以近似所述乘积积分。
2.根据权利要求1所述的计算机实现的方法,其中组合所述经拟合的第一扭曲函数和所述第二扭曲函数包括:
计算所述经拟合的第一扭曲函数和所述第二扭曲函数的复合函数;以及
计算所述复合函数的反导数以生成所述样本分布。
3.根据权利要求2所述的计算机实现的方法,其中所述经拟合的第一扭曲函数、所述第二扭曲函数和所述复合函数在主样本空间中表示。
4.根据权利要求1所述的计算机实现的方法,其中所述参数包括所述第一扭曲函数的多个样本。
5.根据权利要求1所述的计算机实现的方法,其中所述参数是所述第一扭曲函数的峰值和宽度。
6.根据权利要求1所述的计算机实现的方法,其中所述第一因子是余弦函数并且所述乘积积分是直接光照积分。
7.根据权利要求1所述的计算机实现的方法,还包括:使用所述样本分布对图像的像素进行着色。
8.根据权利要求1所述的计算机实现的方法,还包括:当使用光线追踪对图像的像素进行着色时,使用所述样本分布来对围绕表面法线定向的半球进行采样。
9.根据权利要求1所述的计算机实现的方法,其中所述第一扭曲函数和所述第二扭曲函数选自每个都具有概率密度函数的扭曲函数集,所述概率密度函数因子分解成具有定义的累积密度函数和反累积密度函数的1维概率密度函数。
10.根据权利要求9所述的计算机实现的方法,其中所述扭曲函数集包括双线性函数、双二次方贝塞尔函数和加窗的可分离的柯西函数。
11.根据权利要求1所述的计算机实现的方法,其中拟合所述第一扭曲函数的参数包括将所述第二扭曲函数的反函数应用于所述第一扭曲函数的所述参数。
12.根据权利要求1所述的计算机实现的方法,其中在服务器上或者在数据中心中执行选择、选择、拟合、组合和应用的步骤以生成图像,并且所述图像被流式传输至用户设备。
13.根据权利要求1所述的计算机实现的方法,其中执行选择、选择、拟合、组合和应用的步骤以生成图像,所述图像用于训练、测试或证明在机器、机器人或自主车辆中采用的神经网络。
14.一种系统,包括:
存储器,其存储第一扭曲函数和第二扭曲函数;以及
处理器,其耦合到所述存储器且被配置为:
选择近似乘积积分的第一因子的所述第一扭曲函数;
选择近似所述乘积积分的第二因子的所述第二扭曲函数;
将所述第一扭曲函数的参数拟合至所述第二扭曲函数以产生经拟合的第一扭曲函数;
组合所述经拟合的第一扭曲函数和所述第二扭曲函数以产生样本分布;以及
将所述样本分布应用于所述第一因子和所述第二因子的乘积以近似所述乘积积分。
15.根据权利要求14所述的系统,其中组合所述经拟合的第一扭曲函数和所述第二扭曲函数包括:
计算所述经拟合的第一扭曲函数和所述第二扭曲函数的复合函数;以及
计算所述复合函数的反导数以生成所述样本分布。
16.根据权利要求15所述的系统,其中所述经拟合的第一扭曲函数、所述第二扭曲函数和所述复合函数在主样本空间中表示。
17.根据权利要求14所述的系统,其中所述参数包括所述第一扭曲函数的多个样本。
18.根据权利要求14所述的系统,其中所述第一扭曲函数和所述第二扭曲函数选自每个都具有概率密度函数的扭曲函数集,所述概率密度函数因子分解成具有定义的累积密度函数和反累积密度函数的1维概率密度函数。
19.根据权利要求14所述的系统,其中拟合所述第一扭曲函数的参数包括将所述第二扭曲函数的反函数应用于所述第一扭曲函数的所述参数。
20.一种非暂时性计算机可读介质,其存储计算机指令,所述计算机指令在由一个或更多个处理器执行时,使所述一个或更多个处理器执行以下步骤:
选择近似乘积积分的第一因子的第一扭曲函数;
选择近似所述乘积积分的第二因子的第二扭曲函数;
将所述第一扭曲函数的参数拟合至所述第二扭曲函数以产生经拟合的第一扭曲函数;
组合所述经拟合的第一扭曲函数和所述第二扭曲函数以产生样本分布;以及
将所述样本分布应用于所述第一因子和所述第二因子的乘积以近似所述乘积积分。
CN202110498869.3A 2020-06-12 2021-05-08 使用扭曲的复合估计乘积积分 Active CN113808183B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/900,046 2020-06-12
US16/900,046 US11055381B1 (en) 2020-06-12 2020-06-12 Estimating product integrals using a composition of warps

Publications (2)

Publication Number Publication Date
CN113808183A true CN113808183A (zh) 2021-12-17
CN113808183B CN113808183B (zh) 2023-12-12

Family

ID=76657902

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110498869.3A Active CN113808183B (zh) 2020-06-12 2021-05-08 使用扭曲的复合估计乘积积分

Country Status (3)

Country Link
US (1) US11055381B1 (zh)
CN (1) CN113808183B (zh)
DE (1) DE102021110598A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109903217B (zh) * 2019-01-25 2023-05-02 北京百度网讯科技有限公司 图像变形方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150035831A1 (en) * 2013-08-02 2015-02-05 Disney Enterprises, Inc. Methods and systems of joint path importance sampling
US20170236325A1 (en) * 2016-02-15 2017-08-17 Thomson Licensing Device and process for improving efficiency of image rendering
US20180018533A1 (en) * 2016-07-15 2018-01-18 University Of Central Florida Research Foundation, Inc. Synthetic data generation of time series data
US20180096516A1 (en) * 2016-10-03 2018-04-05 Nvidia Corporation Stable ray tracing
US10600152B1 (en) * 2017-05-10 2020-03-24 Gopro, Inc. Systems and methods for parallax compensation
US20200126192A1 (en) * 2017-07-27 2020-04-23 Nvidia Corporation Neural network system with temporal feedback for denoising of rendered sequences

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008076852A1 (en) * 2006-12-14 2008-06-26 Mental Images Gmbh Computer graphics using meshless finite elements for light transport

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150035831A1 (en) * 2013-08-02 2015-02-05 Disney Enterprises, Inc. Methods and systems of joint path importance sampling
US20170236325A1 (en) * 2016-02-15 2017-08-17 Thomson Licensing Device and process for improving efficiency of image rendering
US20180018533A1 (en) * 2016-07-15 2018-01-18 University Of Central Florida Research Foundation, Inc. Synthetic data generation of time series data
US20180096516A1 (en) * 2016-10-03 2018-04-05 Nvidia Corporation Stable ray tracing
US10600152B1 (en) * 2017-05-10 2020-03-24 Gopro, Inc. Systems and methods for parallax compensation
US20200126192A1 (en) * 2017-07-27 2020-04-23 Nvidia Corporation Neural network system with temporal feedback for denoising of rendered sequences

Also Published As

Publication number Publication date
US11055381B1 (en) 2021-07-06
CN113808183B (zh) 2023-12-12
DE102021110598A1 (de) 2021-12-16

Similar Documents

Publication Publication Date Title
US12067669B2 (en) Watertight ray triangle intersection
CN110176054B (zh) 用于训练神经网络模型的合成图像的生成
US10565747B2 (en) Differentiable rendering pipeline for inverse graphics
US10762620B2 (en) Deep-learning method for separating reflection and transmission images visible at a semi-reflective surface in a computer image of a real-world scene
US11836597B2 (en) Detecting visual artifacts in image sequences using a neural network model
US10614613B2 (en) Reducing noise during rendering by performing parallel path space filtering utilizing hashing
CN114092665A (zh) 从视频重建三维对象
CN111143174A (zh) 在共享功率/热约束下操作的硬件的最佳操作点估计器
CN111210498A (zh) 降低多边形网格的细节水平以减少被渲染几何的复杂度
CN114155331A (zh) 从二维图像恢复三维模型
CN111191784A (zh) 转置的稀疏矩阵乘以稠密矩阵用于神经网络训练
EP3678037A1 (en) Neural network generator
US11010963B2 (en) Realism of scenes involving water surfaces during rendering
US11847733B2 (en) Performance of ray-traced shadow creation within a scene
CN113393564A (zh) 利用全局照明数据结构的基于水塘的时空重要性重采样
CN113822975B (zh) 用于对图像进行有效采样的技术
CN114529443A (zh) 以目标采样率的自适应采样
CN113808183B (zh) 使用扭曲的复合估计乘积积分
US11270161B2 (en) Deep-learning method for separating reflection and transmission images visible at a semi-reflective surface in a computer image of a real-world scene
CN115427933A (zh) 用于虚拟机的存储器带宽限制
CN111221498A (zh) 动态方向舍入
US11783532B1 (en) View synthesis using attribute correspondences and geometric relationship constraints
US20240355039A1 (en) Watertight ray triangle intersection
CN115205091A (zh) 动态场景中改进的时间降噪器质量

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant