CN117495685A - 用于图像反走样的系统、设备和/或过程 - Google Patents
用于图像反走样的系统、设备和/或过程 Download PDFInfo
- Publication number
- CN117495685A CN117495685A CN202310928943.XA CN202310928943A CN117495685A CN 117495685 A CN117495685 A CN 117495685A CN 202310928943 A CN202310928943 A CN 202310928943A CN 117495685 A CN117495685 A CN 117495685A
- Authority
- CN
- China
- Prior art keywords
- pixel
- image
- image signal
- signal strength
- tensor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 230000008569 process Effects 0.000 title description 33
- 238000004519 manufacturing process Methods 0.000 claims abstract description 11
- 238000013528 artificial neural network Methods 0.000 claims description 126
- 230000015654 memory Effects 0.000 claims description 48
- 238000012795 verification Methods 0.000 claims description 17
- 230000002123 temporal effect Effects 0.000 claims description 16
- 230000033001 locomotion Effects 0.000 claims description 15
- 239000013598 vector Substances 0.000 claims description 13
- 238000002156 mixing Methods 0.000 claims description 12
- 238000010200 validation analysis Methods 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 230000000977 initiatory effect Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 description 45
- 238000005259 measurement Methods 0.000 description 31
- 238000004891 communication Methods 0.000 description 29
- 230000006870 function Effects 0.000 description 24
- 230000014509 gene expression Effects 0.000 description 19
- 230000004913 activation Effects 0.000 description 18
- 238000009877 rendering Methods 0.000 description 16
- 238000009825 accumulation Methods 0.000 description 12
- 230000005540 biological transmission Effects 0.000 description 12
- 238000013527 convolutional neural network Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 230000003287 optical effect Effects 0.000 description 11
- 238000012549 training Methods 0.000 description 10
- 238000013507 mapping Methods 0.000 description 9
- 210000002569 neuron Anatomy 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 238000012937 correction Methods 0.000 description 7
- 230000011664 signaling Effects 0.000 description 7
- 230000007704 transition Effects 0.000 description 7
- 230000004044 response Effects 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 4
- 230000001131 transforming effect Effects 0.000 description 4
- 239000003826 tablet Substances 0.000 description 3
- 230000036962 time dependent Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000002184 metal Substances 0.000 description 2
- 229910052751 metal Inorganic materials 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000000018 DNA microarray Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000011960 computer-aided design Methods 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005670 electromagnetic radiation Effects 0.000 description 1
- 230000002964 excitative effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 239000007943 implant Substances 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 238000000053 physical method Methods 0.000 description 1
- 230000036314 physical performance Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000005233 quantum mechanics related processes and functions Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000001370 static light scattering Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 210000000225 synapse Anatomy 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000010977 unit operation Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/60—Image enhancement or restoration using machine learning, e.g. neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/18—Image warping, e.g. rearranging pixels individually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/80—Geometric correction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/12—Indexing scheme for image data processing or generation, in general involving antialiasing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20216—Image averaging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/14—Transformations for image registration, e.g. adjusting or mapping for alignment of images
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
- Image Generation (AREA)
Abstract
公开了示例方法、装置和/或制品,该示例方法、装置和/或制品可全部或部分地实施用于将图像反走样操作应用于图像帧的技术。
Description
背景技术
1.技术领域
描述了用于将反走样技术应用于经渲染的图像的技术、设备和过程。
2.发明内容
使计算机生成的图像适应不同分辨率(例如,适应移动游戏平台上的小分辨率)可能引入图像走样,从而可能引起渲染的内容中的“锯齿”边缘。可采用时间性反走样(TAA)过程来通过例如设定子像素样本的平均数的像素值来减轻此类走样效应。子像素样本的此类平均数可至少部分地基于此类子像素样本的时间性累积来确定。
附图说明
要求保护的主题在本说明书的结尾部分中被特别指出和清楚地要求保护。然而,关于组织和/或操作方法,以及其对象、特征和/或优点,在结合附图阅读的情况下,参考以下详细描述可以最好地理解,其中:
图1是根据实施方案的用于处理图像帧的系统的示意图;
图2、图3A和图3B是根据实施方案的用于将图像反走样操作应用于图像帧的系统的具体实施的示意图;
图4是根据实施方案的用于将扭曲特征反馈到神经网络的输入的系统的示意图;
图5和图6是根据实施方案的图像反走样操作的各方面的图示;
图7是根据实施方案的将扭曲特征映射作为输入反馈到神经网络的过程的流程图;
图8是根据实施方案的用于实施图像反走样特征的过程的流程图;
图9是根据具体实施的示例计算系统;并且
图10是根据实施方案的用于形成为“层”的神经网络的示意图。
在以下详细描述中参考了附图,附图形成描述的一部分,在整个描述中,类似的数字可表示类似的部件,这些部件是对应的和/或相似的。应当理解,附图未必按比例绘制,诸如为了简化和/或清楚地示出。例如,一些方面的尺寸相对于其他方面可能有所放大。此外,应当理解,可利用其他实施方案。此外,在不脱离要求保护的主题的情况下,可进行结构和/或其他改变。本说明书通篇提及的“要求保护的主题”是指旨在由一项或多项权利要求或其任何部分所涵盖的主题,并且不一定旨在指完整的权利要求集、权利要求集的特定组合(例如,方法权利要求、设备权利要求等)或特定权利要求。还应当指出的是,方向和/或参考(例如,诸如上、下、顶部、底部等)可用于促进对附图的讨论,并且不旨在限制要求保护的主题的应用。因此,以下详细说明不应理解为限制要求保护的主题和/或等同物。
具体实施方式
本说明书通篇提及的一个具体实施、一具体实施、一个实施方案、一实施方案等意味着,关于特定具体实施和/或实施方案描述的特定特征、结构、特性等包括在要求保护的主题的至少一个具体实施和/或实施方案中。因此,此类短语例如在本说明书通篇中的多处出现不一定旨在指相同的具体实施和/或实施方案或任何一个特定具体实施和/或实施方案。此外,应当理解,所描述的特定特征、结构、特性等能够在一个或多个具体实施和/或实施方案中以各种方式组合,并且因此在预期的权利要求范围内。当然,一般来讲,就像对于专利申请的说明书而言一直存在的那样,这些和其他问题具有在特定使用环境下变化的可能性。换句话讲,在整个本公开中,描述和/或使用的特定上下文提供了关于要得出的合理推理的有帮助的指导;然而,同样地,一般而言“在该上下文中”在不进一步限定的情况下至少是指本专利申请的上下文。
根据实施方案,时间性反走样(TAA)技术可涉及对在多个图像帧上收集的图像信号强度值的处理。在具体实施中,如果没有以足够高的分辨率获得图像信号的观察值和/或样本以避免再现的图像中的失真和/或伪像,则可能发生走样。为了均匀地对像素区域内的不同位置进行采样,可以使用从采样序列得到的子像素抖动偏移来在图像帧上临时地将视口移位。例如,视口子像素抖动偏移可被注入到相机投影矩阵,以在空间上改变不同帧中的不同图像像素值。来自前一图像帧的输出的时间性累积的样本可至少部分地基于应用程序生成的运动向量而被重新投影(例如,重新采样)以说明相机和/或对象运动。例如,由于遮挡、光照和/或表面内容的变化,所获取的图像像素值的历史(例如,对于先前图像)可能是无效的和/或与当前图像帧中的图像信号强度值不一致。在没有仔细检查的情况下应用这种无效图像信号强度值可以引入重影和/或图像滞后伪影。在特定具体实施中,可以拒绝或修正被识别为无效的图像信号强度值。为了生成当前帧的图像信号强度值,可以将当前图像信号强度值累积到相关联像素位置处的经扭曲的修正历史中。
在一个具体实施中,TAA算法的有效性可以至少部分地基于这种TAA算法“修正”经扭曲的反走样历史帧的能力来确定。这样的修正过程可以涉及识别在重新投影期间是否已经发生了去遮挡(或扭曲误差),并且在这样的情况下,选择替代颜色值,称为“箝位”历史。这种历史箝位可依赖于规则定义的算法,这些算法涉及使用图形缓冲器信息(诸如运动向量、表面法线、帧缓冲器/几何统计或计算色彩和/或深度缓冲器统计),并且可利用手动调谐的试探法。虽然这种试探法在一些应用中可能是有效的,但这种试探法在缺乏位置导出规则的情况下可能无法产生足够的图像质量。根据实施方案,可以至少部分地通过训练例如由NVIDIA的DLSS神经网络架构所采用的深度神经网络,来确定这样的位置导出规则。
简言之,在一个方面,本文公开的具体实施涉及一种方法,该方法包括:建立具有第一像素分辨率的一个或多个图像帧;将一个或多个图像帧中的至少一个图像帧变换为具有第二像素分辨率的图像帧;以及将具有第二像素分辨率的图像帧作为输入值应用于神经网络,以提供在处理具有第一像素分辨率的一个或多个图像帧时要应用的参数。基于第二分辨率的输入图像执行这样的神经网络可以使得能够在更小尺度上实现神经网络,而不显著影响图像质量。
在另一方面,具体实施涉及一种方法,该方法包括:
执行神经网络,以至少部分地基于当前输入张量来提供输出特征映射和当前输出张量;至少部分地基于一个或多个运动向量来扭曲输出特征映射;以及执行神经网络,以至少部分地基于扭曲的输出特征映射和后续输入张量来提供后续输出张量。至少部分地基于反馈的扭曲特征映射来提供后续输出张量,神经网络可以实现改善的更大时间稳定性。
图1是根据一个实施方案的用于处理图像帧的系统100的示意图,其中,反走样组件102可确定与图像帧帧N中的像素位置相关联的图像信号强度值。根据实施方案,系统100的特征可以与能够显示和/或再现可视图像的电子设备(诸如,能够生成特定格式的信号以驱动显示设备的设备)集成。此类设备可包括例如移动电话和/或适用于游戏等的其他专用计算设备。
如图所示,反走样组件102可至少部分地基于帧帧N-1的图像信号强度值和抖动偏移信号来确定图像帧帧N的图像信号强度值。框104可进一步处理图像帧帧N的图像信号强度值,以供在显示设备上呈现(例如,根据特定图像呈现格式)。还可以至少部分地基于帧N的图像信号强度值来生成后续帧帧N+1(未示出)的图像信号强度值。
在图2的特定具体实施中,帧帧N-1的图像信号强度值可至少部分地基于从渲染操作214供应的运动向量而在重新投影操作208处扭曲。为了减少并且/或者消除重影和/或图像滞后伪影,验证操作210可将由重新投影操作208产生的扭曲帧的部分识别为无效的(例如,被拒绝或修正)。由验证操作产生的经修正的扭曲帧可接着在累积操作212处与由渲染操作214生成的一个或多个帧混合和/或组合,以提供经混合的图像帧。由累积操作212产生的混合图像帧然后可以在操作216处被预处理,以在显示设备(未示出)上显示。
根据实施方案,例如,可以至少部分地基于在重新投影操作208处计算的扭曲图像帧,将待在验证操作210和/或累积操作212中应用的参数确定为由神经网络(NN)202提供的输出值。在特定具体实施中,NN 202可以定义多个输出通道,以提供例如将由累积操作212在生成混合图像帧时应用的每像素值α以及将由验证操作210应用的每像素值θ和内核偏移值。
根据实施方案,在到NN 202的输入张量中提供的扭曲图像帧可以至少部分地从由重新投影操作208提供的扭曲图像帧导出。到NN 202的输入张量可包括扭曲图像帧、运动向量的长度和/或色彩样本(例如,来自渲染操作214),仅举几例。在特定具体实施中,在到NN202的输入张量中提供的扭曲图像帧可以包括由重新投影操作208提供的扭曲图像帧的下采样版本。同样地,在操作210和212处,在NN 202的输出张量中提供的参数可被上采样到较高分辨率,以应用于较高分辨率图像帧。将在反走样操作中应用的输入张量中的扭曲图像帧的该下采样和输出张量中的参数的上采样可使得能够从任何特定大小的图像帧解耦NN202,并且进一步使得能够减小NN 202的尺度,而不显著损失图像质量。如上文所指出,由NN202接收的输入值可基于由累积操作206计算的扭曲图像帧。在特定具体实施中,由NN 202接收的输入值的缩放可以与由重新投影操作208产生的扭曲图像帧的缩放不同和/或解耦。例如,虽然重新投影操作208可以提供具有1920×1080像素的图像帧的像素的图像信号强度值,但是在NN 202处接收的输入可以包括具有960×540像素的图像信号强度值的缩小的图像帧。因此,NN 202的特定NN模型可以独立于经处理以解决图像走样的图像帧的分辨率,从而允许将NN 202的一组实施应用于反走样操作,这些反走样操作应用于不同像素分辨率的图像帧。
根据实施方案,除了接收在重新投影操作208处计算的扭曲图像帧作为输入之外,NN 202还可以接收递归反馈分量,作为输入值。如图所示,NN 202的一个或多个输出通道可以在重新投影操作204处被处理,以作为输入值提供给NN 202。在特定具体实施中,由NN202生成的递归反馈分量可以包括时间相关状态,诸如例如,特征映射或其他时间相关、时间受影响状态(例如,NN 202的“隐藏”状态)。这种递归反馈分量随后可以在重新投影操作204处扭曲(例如,基于由渲染操作214提供的运动向量),以作为输入值连同由重新投影操作208生成的扭曲图像帧一起被提供给NN 202。
如上文所指出,渲染操作214可以使用第一像素分辨率提供图像帧,而NN 202可以使用低于第一像素分辨率的第二像素分辨率接收图像帧,作为输入张量的一部分。在一个具体实施中,验证操作210和/或累积操作212可以用(由渲染操作214提供的图像帧的)第一像素分辨率来执行。在另一具体实施中,提供给后处理216和重新投影操作218的重新投影输出图像帧将被放大,以具有高于第一像素分辨率的像素分辨率。为了能够以高于第一像素分辨率的像素分辨率提供这样的输出图像帧,由NN 202提供给验证操作210和/或累积操作212的参数可以被适当地放大到更高的分辨率。
图3A和3B是根据实施方案的用于对图像帧执行图像反走样操作的系统的流水线具体实施的示意图。在特定具体实施中,系统300可以包括形成在一个或多个集成电路(IC)管芯(诸如,实施计算设备342和346的一个或多个IC管芯)上的一个或多个计算设备。例如,系统300可以将计算设备342和346与形成在单独的IC管芯上的NN设备344集成。系统300可以实现系统200的一个或多个特征(图2)。例如,卷积神经网络(CNN)302可通过至少部分地基于输入张量334(至少部分地基于扭曲图像帧330)计算包括要应用于一个或多个图像反走样操作中的参数的输出张量336来至少部分地实施NN 202。
根据实施方案,重新投影操作308可以至少部分地基于针对先前时刻306确定的图像帧以及计算出的运动向量338来计算扭曲图像帧330。虽然扭曲图像帧330可以表达一个特定像素分辨率(例如,1080×1920)的图像,但下采样操作326可生成扭曲图像帧337,来以较低像素分辨率(例如,540×960)表达图像帧。以较低分辨率表达图像帧的这种扭曲图像帧337可与反馈分量332中的一个或多个特征映射组合,以形成输入张量334。输入张量334的元素可根据输入量化在量化350处被量化。相反,递归反馈324可在去量化352处被去量化。
根据实施方案,CNN 302可以在CNN 302的迭代上计算输出张量336和反馈分量324。反馈分量324可以在框304处扭曲并与扭曲图像帧337组合,以提供输入张量334。输出张量336可以包括要应用于计算设备部分346的反走样操作(例如,修正操作310及混合操作312)中的参数。在特定具体实施中,输出张量336的这种参数可在上采样操作328处被上采样,以提供例如根据与输入张量334的扭曲图像帧的分辨率相匹配的分辨率来缩放的参数。如上文所指出,执行CNN 302以提供将以低于扭曲图像帧337的分辨率的像素分辨率应用于图像帧的参数可实现不显著降级图像质量的CNN 302的较小规模、较低成本设计。
在另一方面,NN 202的一个或多个特征可根据图4中所示的NN 402的特征来实现。NN 402可以至少部分地基于张量输入410和扭曲反馈分量406来计算张量输出412。虽然NN402的张量输出可以包括要在图像验证和累积操作(例如,验证操作210和/或累积操作212)中应用的参数,但是NN 402可以生成其他/不同的参数,诸如例如,学习的上采样滤波器,其中,双线性上采样的权重是由NN 402预测的参数、用于滤波器操作的内核预测网络的内核值,仅提供可以由NN 402确定/预测的参数的几个示例。根据实施方案,输入张量410可以包括诸如音频内容和/或图像内容(例如,特定帧速率的图像帧)等内容信号的表示。在特定具体实施中,输入张量410可以包括扭曲图像帧,诸如,在重新投影操作208处确定的扭曲图像帧。在其他具体实施中,例如,输入张量410可以包括在不同/独立神经网络的输出张量中提供的深度图和/或特征映射。然而,应当理解,这些仅仅是可以在神经网络接收的输入张量中提供的内容的示例,并且要求保护的主题在这方面不受限制。输出张量412可以包括NN402的预测,诸如例如,要在处理图像帧中应用的参数(例如,如图2中所示的参数α和θ)。然而,应当理解,这些仅仅是可以在神经网络提供的输出张量中提供的参数的示例,并且要求保护的主题在这方面不受限制。
递归反馈408可以包括特征映射,诸如例如,从内容信号提取的特征的映射。这种内容信号可具有时间维度中的时间参考,诸如图像帧的时间序列中的图像帧。例如,递归反馈408可以包括图像帧的特征,诸如由NN 202结合上述α值生成的递归反馈。在另一示例具体实施中,递归反馈408可以受输出张量412的全部或一部分约束或被约束为输出张量的全部或一部分。
根据实施方案,NN 202和/或NN 402的参数可以在机器学习训练操作中确定和/或更新。例如,与NN 202和/或NN 402的节点相关联的权重可以至少部分地基于应用于在训练操作中应用的反向传播中的损失函数的梯度来确定和/或更新。这样的损失函数L可以根据如下表达式(1)表达为:
其中:
xoff和yoff是作为验证操作(例如,根据表达式(3))的一部分应用于采样内核的每像素偏移;
表示至少部分地基于参数xoff、yoff、α和γ的应用计算的一个或多个图像帧(例如,由累积操作212生成的一个或多个图像帧);
F表示一个或多个基准真值图像帧;并且
W表示与神经网络(例如,NN 202)的节点相关联的权重。
在特定具体实施中,函数f可以包括若干不同函数中的任一者,例如,均方误差(MSE)函数。然而,应当理解,这只是可以在损失函数中实施的示例函数,并且要求保护的主题在这方面不受限制。
根据实施方案,重新投影操作208可以执行扭曲处理,以将与由累积操作206生成的图像帧N-1中的像素位置相关联的图像信号强度值映射为与帧N在时间上对准。这种映射可以至少部分地基于由渲染操作214根据如下表达式(2)生成的运动向量来确定:
out(x,y)=in(x+u(x,y),y+v(x,y)), (2)
其中:
in(x,y)是与图像帧N-1中的像素位置x,y相关联的图像信号强度值;
out(x,y)是与图像帧N中的像素位置x,y相关联的图像信号强度值;并且
u(x,y)和v(x,y)是要应用于图像帧N中的像素位置x,y处的图像信号强度值的运动向量的水平和垂直位移分量。
根据实施方案,验证操作210可以解决在重新投影操作208中发生的误差,这些误差例如是由于去遮挡(例如,隐藏在帧N-1中的内容出现在扭曲帧中)或遮挡(例如,在帧N-1中可见的内容被隐藏在扭曲帧中)而导致的,遮挡可能出现在通常被称为“重影”的伪影中。至少部分地基于由渲染操作214生成的当前(例如,走样)图像帧的图像信号强度值,验证操作210可以验证、拒绝和/或修正与由重新投影操作208生成的扭曲图像帧中的像素位置相关联的图像信号强度值。在一个具体实施中,验证操作210可确定与由渲染操作214产生的当前(例如,走样)图像帧中的对应像素位置相邻的像素的“箝位”图像信号强度值。例如,验证操作210可以确定此类相邻像素的不同色彩通道的图像信号强度值的统计描述符,诸如平均值和标准偏差。至少部分地基于此类统计描述符,验证操作210可以构造对应的三维轴对准边界框(AABB),以确定扭曲图像帧(例如,来自重新投影操作208)中的对应像素位置的图像信号强度值将被接受或拒绝的程度。
在特定具体实施中,由渲染操作214产生的当前图像帧中的特定像素位置的相邻像素的统计描述符可以至少部分地基于用于从相邻像素之中选择的对应像素的图像信号强度值的多抽头采样内核来确定。图5示出了当前图像帧中以像素504为中心的九个像素504到520的区域500。由以特定图案(例如,如图所示的框图案)的抽头t1、t2、t3和t4的位置定义的四抽头采样内核可以确定四个对应像素位置的图像信号强度值的选择,以计算覆盖像素504到520的区域500的统计描述符。根据实施方案,由抽头t1、t2、t3和t4的位置形成的图案的中心可以至少部分地被定义为NN 202的输出参数,例如,从中心像素504的位置到位置502的二维偏移。在图5中所示的特定示例中,位置502(例如,根据作为NN 202的输出参数而生成的偏移参数而确定)将抽头t1、t2、t3及t4的位置分别定位于像素510、504、508及506的位置上方。
在图5的特定具体实施中,虽然可将抽头t1、t2、t3及t4的放置约束于特定像素窗口(例如,3×3像素窗口或5×5像素窗口),但位置502(确定抽头t1、t2、t3及t4的放置)可以与像素504的位置相比改变基于被确定为NN 202的输出参数的量。然后,可组合对应于抽头t1、t2、t3及t4的放置的像素的图像信号强度值(例如,作为加权平均和/或经滤波值),以计算箝位值。根据实施方案,像素504到520之间的抽头t1、t2、t3和t4的变化放置可以使得NN202能够通过隔离离群值来实现所计算的箝位值的反走样。在特定具体实施中,验证操作210可根据如下表达式(3)确定特定像素位置x,y和特定色彩通道c的组合值mean(x,y,c):
其中:
ti(x,y,c)是最靠近抽头ti的像素的色彩通道c的图像信号强度值;
kxi和kyi是与抽头ti相关联的恒定偏移;并且
xoff和yoff是被确定为由训练系统(例如,NN 202、302或402)生成的输出值的偏移值。
在如上所述将扭曲图像的图像信号强度值箝位到计算的边界框的范围的替代方案中,一个实施方案可以应用来自NN 202的每像素值参数来对由渲染操作214生成的当前帧和由重新投影操作208生成的扭曲图像帧中的对应像素的图像信号值进行加权。在特定具体实施中,NN 202可提供值θ,假设值在范围[0,1]中,其中,θ=0可反映对扭曲历史的拒绝(例如,在来自重新投影操作208的扭曲图像帧中),并且θ=1可反映对扭曲历史的接受,而不修改其值。这可以缓解箝位可能落在边界框之外的有效历史样本的情况,并且可以在时间稳定性和图像清晰度两者方面显著改善总体图像质量(优于其它TAA技术)。
在如图6所示的一个具体实施中,作为图像信号强度值的加权和的WS(x,y,c)的值可提供与当前图像帧中的特定像素相邻的像素的统计描述符,其可由点602表示,而点604可以表示扭曲图像帧(例如,由重新投影操作208生成)中的对应像素的图像信号强度值。例如,x轴可以表示红色通道,而y轴可以表示绿色通道。然而,应当理解,箝位可以跨三个或更多个色彩通道执行。由点606表示的箝位值可根据如下表达式(4)和(5)计算:
距离(x,y,c)=历史(x,y,c)-WS(x,y,c) (4)
修正(x,y,c)=WS(x,y,c)+距离(x,y,c)×θ(x,y) (5)
其中:
历史(x,y,c)是扭曲图像帧中的像素位置x,y处的色彩通道c的图像信号值;并且
修正(x,y,c)是修正图像帧(例如,由验证操作210提供)中的像素位置x,y处的色彩通道c的图像信号值。
根据实施方案,累积操作212可以至少部分地基于由验证操作接收的修正图像帧(例如,具有根据表达式(5)计算的图像信号像素值)、由渲染操作214生成的当前图像帧和混合参数α来计算输出图像帧的图像信号强度值。在特定具体实施中,混合参数α可在每个像素基础上确定为例如NN 202的输出。可将参数α应用于当前图像帧和修正图像帧的图像信号强度值,以根据如下表达式(6)生成输出图像帧的图像信号强度值:
y(x,y,c)=α(x,y)×tin(x,y,c)+{[1-α(x,y)]×修正(x,y,c)}, (6)
其中:
y(x,y,c)是输出图像帧中的像素位置x,y处的色彩通道c的图像信号强度值;
tin(x,y,c)是当前图像帧(例如,由渲染操作214提供)中的像素位置x,y处的色彩通道c的图像信号强度值;并且
α(x,y)是要应用于像素位置x,y处的色彩通道的图像信号强度值的范围(例如,[0.0,1.0]或[0.1,0.4])中的混合参数(例如,由NN 202生成)。
根据实施方案,在表达式(6)中采用的tin(x,y,c)和α(x,y)可以使得能够将图像帧从较低分辨率格式放大到较高分辨率格式。例如,可使用若干基于内插的滤波技术中的任一种滤波技术来确定提供较高分辨率输出图像帧的tin(x,y,c)的值。α(x,y)的值可以进行加权/偏置,以向更接近于较高分辨率输出像素的图像信号强度值赋予较高重要性。
在实施方案中,α的相对较大值可以说明对当前走样帧(例如,由渲染操作214产生)的对应部分的较大接受度,这可以帮助擦除重影和/或遮挡的内容,并且加速历史中维持的每个像素的多个有效样本。相反,相对较小的α值在理论上可允许将每个像素的较大数量的样本累积到历史中,但可以较不响应于擦除错误修正。作为神经网络输出值生成的(例如,从NN 202生成的)α可以是基于观察到的行为的可学习参数,以与响应特性很好地对准,这可能难以启发式地导出。
图7是根据实施方案的将扭曲特征映射作为输入反馈到神经网络的过程800的流程图。在特定具体实施中,例如,可使用系统400的特征来执行过程800。框802可以包括执行诸如NN 402等神经网络以处理输入张量,诸如例如,时变介质内容,诸如图像帧的时间序列(例如,与通过累积操作206为帧N累积的图像帧的像素位置相关联的图像信号强度值)。在另一实施方案中,这样的时变介质内容可以包括音频信号。在特定具体实施中,在框802处执行的神经网络可以包括与节点相关联的权重,其中,这些节点是在应用基于损失函数(例如,如表达式(1)中阐述的损失函数)的梯度的反向传播的机器学习训练操作中确定的。在框802处的神经网络的执行可以生成至少包括特征映射和输出张量的多通道输出。这种特征映射可以包括例如与输入张量中提供的内容有关的特征映射,诸如与图像帧的像素位置相关联的图像信号强度值。
根据实施方案,框804可以将扭曲操作应用于在框802处生成的特征映射。如上文所指出,这样的特征映射可以包括神经网络的隐藏状态和/或时间相关状态。另外,在本上下文中,扭曲操作可以包括适用于特征映射以按可预测方式变换特征的任何操作。这种扭曲操作可以包括例如将特征映射引用到不同时间。在框802处生成的这种特征映射包括并且/或者基于图像帧的时间序列中的图像帧的特定示例中,框804可应用运动向量(例如,由渲染操作214生成),以将在框802处生成的特征映射引用到未来实例(例如,根据表达式(2))。
根据实施方案,框806可至少部分地基于在框804处生成的经扭曲特征映射以及后续输入张量而生成后续输出张量。根据实施方案,在框802或框806处生成的输出张量可以包括可应用于图像反走样操作(诸如例如,验证操作(例如,验证操作210)和/或累积操作(例如,累积操作212))中的参数。例如,在框802和/或框806中生成的输出张量可以包括参数,诸如在表达式(3)中应用的xoff和yoff、在表达式(5)中应用的θ(x,y)和/或在表达式(6)中应用的θ(x,y)。在另一具体实施中,在框802和/或框806中生成的输出张量可以包括定义学习的上采样滤波器(例如,其中在输出张量中提供双线性上采样的权重)或用于滤波器操作的内核预测网络的内核值的参数。框808可以包括在内容信号的变换(诸如例如,滤波操作和/或时间反走样操作)中应用输出张量值。
图8是根据实施方案的用于实施图像反走样特征的过程900的流程图。在一个特定具体实施中,可使用系统200的特征来执行过程900,使得为产生用于对图像帧执行反走样的参数的神经网络的缩放可与图像帧的分辨率解耦。框902可以包括例如建立图像帧,该图像帧包括与像素位置相关联的图像信号强度值,作为累积操作(诸如累积操作206)的输出。框904可以通过例如将与以第一分辨率建立的图像帧中的像素相关联的图像信号强度值映射到与以不同于第一分辨率的第二分辨率建立的图像帧中的像素相关联的图像信号强度值,来变换在框902建立的图像帧。如图2中的系统200的特定示例中所示,框904可以包括将从累积操作208接收和/或在重新投影操作208处扭曲的1920×1080图像帧下采样为960×540图像帧,以作为输入张量提供到NN 202。
框906可以包括基于由框904提供(例如,缩小)的作为到NN 202的输入张量的第二分辨率的图像帧,来执行神经网络(例如,NN 202),以生成在处理具有第一分辨率(在框902处建立的图像帧的分辨率)的图像帧时要应用的参数。在框906处生成的这种参数可以包括要应用于反走样操作中的参数,例如,诸如应用于表达式(3)中的xoff及yoff、应用于表达式(5)中的θ(x,y)和/或应用于表达式(6)中的θ(x,y)。
根据实施方案,系统200、300和/或400可由以下器件形成和/或通过以下器件来表示:在过程(例如,前端生产线过程和/或后端生产线过程)诸如用于形成互补金属氧化物半导体(CMOS)电路(仅作为示例)的过程中的晶体管和/或下部金属互连件(未示出)。然而,应当理解,这仅仅是如何在生产线前端过程中在设备中形成电路的示例,并且要求保护的主题在这方面不受限制。
应当指出的是,本文所公开的各种电路可使用计算机辅助设计工具来描述,并且根据其行为、寄存器传输、逻辑组件、晶体管、布局几何形状和/或其他特征来表达(或表示)为体现在各种计算机可读介质中的数据和/或指令。可在其中实现此类电路表达的文件和其他对象的格式包括但不限于支持行为语言诸如C、Verilog和VHDL的格式,支持寄存器级描述语言诸如RTL的格式,以及支持几何描述语言诸如GDSII、GDSIII、GDSIV、CIF、MEBES的格式和任何其他合适的格式和语言。可体现此类格式化的数据和/或指令的存储介质包括但不限于各种形式的非易失性存储介质(例如,光学、磁性或半导体存储介质)和可用于通过无线、光学或有线信令介质或它们的任何组合传输此类格式化的数据和/或指令的载波。通过载波传输此类格式化的数据和/或指令的示例包括但不限于经由一个或多个数据传输协议(例如,HTTP、FTP、SMTP等)通过互联网和/或其他计算机网络进行传输(上传、下载、电子邮件等)。
如果经由一个或多个机器可读介质接收在计算机系统内,则上述电路的此类基于数据和/或指令的表达可由计算机系统内的处理实体(例如,一个或多个处理器)结合一个或多个其他计算机程序(包括但不限于网表生成程序、地点和路由程序等)的执行来处理,以生成此类电路的物理表现的表示或图像。此后,此类表示或图像可用于设备制造,例如,通过能够生成一个或多个掩模,该一个或多个掩模用于在设备制造过程(例如,晶圆制造过程)中形成该电路的各种组件。
在本专利申请的上下文中,术语“在…之间”和/或类似术语应理解为包括“在…之中”(如果适用于特定用途),反之亦然。同样,在本专利申请的上下文中,术语“与…相容”、“顺应”和/或类似术语应被理解为分别包括实质相容性和/或实质顺应性。
对于一个或多个实施方案,系统200、300和/或400可在设备中实现,诸如计算设备和/或网络设备,其可以包括,例如,较宽范围的数字电子设备中的任一种,包括但不限于:台式计算机和/或笔记本电脑、高清电视、数字通用光盘(DVD)和/或其他光盘播放器和/或录像机、游戏机、卫星电视接收器、移动电话、平板设备、可穿戴设备、个人数字助理、移动音频和/或视频回放和/或录制设备、物联网(IoT)类型设备或者前述的任何组合。此外,除非另外特别说明,否则诸如参考流程图和/或其他方式描述的过程也可全部或部分地由计算设备和/或网络设备执行和/或影响。诸如计算设备和/或网络设备的设备可根据能力和/或特征而变化。所要求保护的主题旨在涵盖较宽范围的潜在变型。例如,设备可包括功能有限的数字小键盘和/或其他显示器,诸如用于显示文本的单色液晶显示器(LCD)。然而,相比之下,又如,启用网络的设备可包括物理和/或虚拟键盘、大容量存储装置、一个或多个加速度计、一个或多个陀螺仪、全球定位系统(GPS)和/或其他位置识别类型能力,和/或诸如触敏彩色2D或3D显示器的具有更高功能度的显示器。
在本专利申请的上下文中,术语“连接件”、术语“部件”和/或类似术语旨在为物理的,但不一定总是有形的。因此,这些术语是否指代有形主题,可在特定使用环境下变化。例如,可诸如通过能够在两个有形部件之间传导电流的有形电连接(诸如包括金属或其他导体的导电路径)来形成有形连接和/或有形连接路径。同样,有形连接路径可至少部分地受到影响和/或控制,使得如典型的那样,有形连接路径有时可能由于一个或多个外部衍生信号(诸如用于电气开关的外部电流和/或电压)的影响而打开或闭合。电开关的非限制性示例包括晶体管、二极管等。然而,在特定使用上下文中,“连接”和/或“部件”同样(尽管是物理的)也可以是非有形的,诸如客户端与服务器之间通过网络(特别是无线网络)的连接,这通常指代客户端和服务器发射、接收和/或交换通信的能力,如稍后更详细地讨论。
因此,在特定使用上下文(诸如讨论有形部件的特定上下文)中,术语“耦接”和“连接”以使得这些术语不同义的方式使用。也可以表现出类似意图的方式使用类似的术语。因此,“连接”用于指示例如两个或更多个有形部件等有形地直接物理接触。因此,使用先前的示例,电连接的两个有形部件经由有形电连接物理地连接,如前所述。然而,“耦接”用于意指潜在地两个或更多个有形部件有形地直接物理接触。尽管如此,“耦接”也用于意指两个或更多个有形部件等不一定有形地直接物理接触,而是能够诸如通过“光学耦接”来协作、联络和/或交互。同样,术语“耦接”也被理解为意指间接连接。还应当注意,在本专利申请的上下文中,由于存储器诸如存储器部件和/或存储器状态旨在为非暂态的,因此术语“物理”(至少如果相对于存储器使用的话)必然意味着此类存储器部件和/或存储器状态(继续该示例)是有形的。
除非另外指明,否则在本专利申请的上下文中,如果用于关联列表,诸如A、B或C,则术语“或”旨在此处以包含性意义使用以表示A、B和C,以及在此处以排他性意义使用以表示A、B或C。根据该理解,“和”以包含性意义使用,并且旨在表示A、B和C;而“和/或”可谨慎使用以使所有前述含义都是预期的,尽管此类使用不是必需的。此外,术语“一个或多个”和/或类似术语用于描述单数形式的任何特征、结构、特性等,“和/或”也用于描述特征、结构、特性等的多个和/或一些其他组合。同样,术语“基于”和/或类似术语被理解为不一定旨在传达详尽的因素列表,而是允许存在不一定明确描述的附加因素。
此外,对于涉及要求保护的主题的具体实施并且受制于关于程度的测试、测量和/或规范的情况,旨在以如下方式理解特定情况。例如,在给定情况下,假设将测量物理属性的值。如果普通技术人员合理地可能想到关于程度的测试、测量和/或规范的另选合理方法(至少相对于属性,继续该示例),则至少出于具体实施目的,除非另外明确指明,否则要求保护的主题旨在涵盖那些另选合理方法。例如,如果产生某个区域上的测量值的曲线图并且受权利要求书保护的主题的具体实施指代采用该区域上的斜率的测量值,但存在多种合理且可供选择的技术来估计该区域上的斜率,则除非另外明确指明,否则受权利要求书保护的主题旨在涵盖那些合理的可供选择的技术。
在受权利要求书保护的主题涉及一个或多个特定测量的程度上,诸如关于能够被物理测量的物理表现,诸如但不限于温度、压力、电压、电流、电磁辐射等,据信受权利要求书保护的主题不属于法定主题的抽象概念司法例外。相反,声称物理测量不是精神步骤,并且同样不是抽象概念。
尽管如此,应当注意,所采用的典型测量模型是,一个或多个测量可分别包括至少两个分量的总和。因此,对于给定的测量,例如,一个分量可包括确定性分量,该确定性分量在理想意义上可包括通常为一个或多个信号、信号样本和/或状态的形式的物理值(例如,经由一个或多个测量来寻找),并且一个分量可包括随机分量,该随机分量可具有可能难以量化的各种源。有时,例如,缺乏测量精度可影响给定测量。因此,对于受权利要求书保护的主题,除了确定性模型之外,还可以使用统计模型或随机模型作为识别和/或预测关于可能与受权利要求书保护的主题相关的一个或多个测量值的方法。
例如,可收集相对大量的测量以更好地估计确定性分量。同样,如果测量变化(这通常可能发生),则可能的是方差的一些部分可被解释为确定性分量,而方差的另一些部分可被解释为随机分量。通常,如果可行的话,希望与测量相关联的随机方差相对较小。也就是说,通常可能优选的是,能够以确定的方式而不是作为识别和/或可预测性的辅助手段的随机因素来说明测量变化的合理部分。
按照这些原则,已使用多种技术,使得可处理一个或多个测量值以更好地估计基础确定性分量,以及潜在地估计随机分量。当然,这些技术可随围绕给定情况的细节而变化。然而,通常更复杂的问题可能涉及使用更复杂的技术。就这一点而言,如上所述,对物理表现的一个或多个测量可确定地和/或随机地建模。采用模型允许潜在地识别和/或处理所收集的测量值,和/或潜在地允许例如相对于将进行的稍后测量来估计和/或预测基础确定性分量。给定估计值可能不是完美估计值;然而,一般来讲,预期平均一个或多个估计值可更好地反映基础确定性分量,例如,如果考虑可包括在一个或多个所获得的测量中的随机分量。当然,实际上,希望能够诸如通过估计方法生成影响将进行的测量的过程的有物理意义的模型。
然而,在一些情况下,如所指出的那样,潜在影响可能是复杂的。因此,寻求理解要考虑的适当因素可能是特别具有挑战性的。因此,在此类情况下,相对于生成一个或多个估计值采用启发法并不罕见。启发法指代使用可反映实现的过程和/或实现的结果的经验相关的方法,诸如相对于历史测量的使用。例如,可在更多分析方法可能过于复杂和/或几乎难以处理的情况下采用启发法。因此,就受权利要求书保护的主题而言,创新特征可包括在示例性实施方案中可用于例如估计和/或预测一个或多个测量值的启发法。
还需注意的是,如果使用术语“类型”和/或“类”,诸如与特征、结构、特性等一起使用,使用“光学”或“电”作为简单示例,意指至少部分地具有该特征、结构、特性等和/或与该特征、结构、特性等相关,这样使得存在微小变型、甚至以其他方式可能不被认为与该特征、结构、特性等完全一致的变型通常不会阻止特征、结构、特性等称为“类型”和/或“类”(诸如为“光学类型”或“光学类”),如果微小变型足够小,使得特征、结构、特性等仍将被视为基本上存在于也存在此类变型的情况下。因此,继续该示例,术语光学类型和/或光学类特性必然旨在包括光学特性。同样,作为另一示例,术语电类型和/或电类特性必然旨在包括电特性。应当注意,本专利申请的说明书仅提供一个或多个说明性示例,并且要求保护的主题旨在不限于一个或多个说明性示例;然后,同样,如相对于专利申请的说明书中始终存在的情况,描述和/或使用的上下文提供了关于要得出的合理推理的有帮助的指导。
在整个本文档中使用的术语“电子文件”和/或术语“电子文档”指代以某种方式相关联的所存储的存储器状态的集合和/或物理信号的集合,从而至少在逻辑上形成文件(例如,电子文件)和/或电子文档。也就是说,这并不意指隐式地引用例如相对于相关联的存储器状态的集合和/或相关联的物理信号的集合所使用的特定语法、格式和/或方法。如果例如预期特定类型的文件存储格式和/或语法,则明确引用该文件存储格式和/或语法。还需注意,存储器状态的关联性例如可以是逻辑意义上的并且不一定是有形的物理意义上的。因此,尽管文件和/或电子文档的信号和/或状态部件将例如在逻辑上相关联,但在一个实施方案中,该信号和/或状态部件的存储例如可驻留在有形的物理存储器中的一个或多个不同位置中。
在本专利申请的上下文中,术语“条目”、“电子条目”、“文档”、“电子文档”、“内容”、“数字内容”、“项”和/或类似术语意在指代物理格式(诸如数字信号和/或数字状态格式)的信号和/或状态,例如,如果由诸如数字设备(包括例如计算设备)的设备显示、播放、触觉生成等和/或以其他方式执行则可被用户感知到,但(例如,如果以数字格式形式)可能不一定易于被人类感知到。同样,在本专利申请的上下文中,数字内容以某种形式提供给用户,使得用户能够容易地感知内层内容本身(例如,以可由人类消费的形式呈现的内容,诸如听到音频、感受触觉感受和/或看到图像)相对于用户被称为“消费”数字内容、“消耗”数字内容、“可消费”数字内容和/或类似术语。对于一个或多个实施方案,例如,电子文档和/或电子文件可包括由或将由计算和/或联网设备执行的标记语言的网页代码(例如,计算机指令)。在另一实施方案中,电子文档和/或电子文件可包括网页的一部分和/或一个区域。然而,所要求保护的主题并不旨在在这些方面受到限制。
另外,对于一个或多个实施方案,电子文档和/或电子文件可包括多个部件。如前所述,在本专利申请的上下文中,部件是物理的,但不一定是有形的。例如,在一个或多个实施方案中,参考电子文档和/或电子文件的部件可包括例如物理信号和/或物理状态形式(例如,能够被物理地显示)的文本。通常,存储器状态例如包括有形部件,而物理信号不一定是有形的,尽管信号可变得(例如,成为)有形,诸如,如果出现在有形显示器上,则这并不罕见。另外,对于一个或多个实施方案,参考电子文档和/或电子文件的部件可包括图形对象和/或子对象,该图形对象例如诸如数字图像的图像,该子对象包括其属性,该属性再次包括物理信号和/或物理状态(例如,能够有形地显示)。在一个实施方案中,数字内容可包括例如文本、图像、音频、视频和/或其他类型的电子文档和/或电子文件,包括例如电子文档和/或电子文件的部分。
另外,在本专利申请的上下文中,术语“参数”(例如,一个或多个参数)、“值”(例如,一个或多个值)、“符号”(例如,一个或多个符号)、“位”(例如,一个或多个位)、“元素”(例如,一个或多个元素)、“字符”(例如,一个或多个字符)、“数字”(例如,一个或多个数字)、“数字”(例如,一个或多个数字)或“测量”(例如,一个或多个测量)指代描述诸如在一个或多个电子文档和/或电子文件中的信号集合的材料,并且以物理信号和/或物理状态诸如存储器状态的形式存在。例如,一个或多个参数、值、符号、位、元素、字符、数字、数量或测量值(诸如参考包括图像的电子文档和/或电子文件的一个或多个方面)可包括例如所捕获图像的当日时间、诸如相机的图像捕获设备的纬度和经度等。在另一示例中,例如,与数字内容相关的一个或多个参数、值、符号、位、元素、字符、数字、数量或测量值(诸如包括技术论文的数字内容)可包括例如一位或多位作者。受权利要求书保护的主题旨在涵盖任何格式的有意义的描述性参数、值、符号、位、元素、字符、数字、数量或测量值,只要该一个或多个参数、值、符号、位、元素、字符、数字、数量或测量值包括物理信号和/或状态即可,该物理信号和/或状态可包括作为参数示例的集合名称(例如,电子文件和/或电子文档标识符名称)、创建技术、创建目的、创建时间和日期、如果存储的逻辑路径、编码格式(例如,计算机指令的类型,诸如标记语言)和/或所使用的以便对于一个或多个用途协议兼容的标准和/或规范(例如,基本兼容和/或基本上兼容的含义)等。
也被称为信号分组传输和/或信号帧传输(或仅“信号分组”或“信号帧”)的信号分组通信和/或信号帧通信可在网络的节点之间传达,其中,例如,节点可包括一个或多个网络设备和/或一个或多个计算设备。作为说明性示例,但不作限制,节点可包括采用本地网络地址的诸如在本地网络地址空间中的一个或多个站点。同样,设备诸如网络设备和/或计算设备可与该节点相关联。还需注意,在本专利申请的上下文中,术语“传输”旨在作为可在多种情况中的任一种下发生的信号通信类型的另一术语。因此,并非旨在暗示通信的特定方向性和/或用于“传输”通信的通信路径的特定发起端。例如,在本专利申请的上下文中,仅仅使用该术语本身并不意指相对于被传达的一个或多个信号具有特定的含义,诸如信号是否被“传达到”特定设备,信号是否从特定设备“传达”,和/或关于通信路径的哪个端可发起通信,诸如以信号传输的“推送类型”或信号传输的“拉取类型”进行。在本专利申请的上下文中,通过通信路径的哪一端发起信号传输来区分推送型信号传输和/或拉取型信号传输。
因此,例如,信号分组和/或帧可经由通信信道和/或通信路径(诸如包括互联网和/或Web的一部分)从站点经由耦接到互联网的接入节点进行通信,或者反之亦然。同样,例如,信号分组和/或帧可经由网络节点转发到耦接到本地网络的目标站点。经由互联网和/或网络传达的信号分组和/或帧例如可经由包括一个或多个网关、服务器等的路径路由,诸如被“推送”或“拉取”,该一个或多个网关、服务器等可例如基本上根据目标地址和/或目的地地址以及网络节点到目标地址和/或目的地地址的网络路径的可用性来路由信号分组和/或帧。尽管互联网和/或Web包括可互操作网络的网络,但并非所有这些可互操作网络都是公众可用的和/或可访问的。根据实施方案,信号分组和/或帧可包括在设备之间传输的“消息”的全部或一部分。在具体实施中,消息可包括表达将被递送到接收方设备的内容的信号和/或状态。例如,消息可至少部分地包括传输介质中的物理信号,该物理信号由待被存储在接收方设备处的非暂态存储介质中的内容调制,并且随后被处理。
在特定专利申请的上下文中,网络协议(诸如用于在网络的设备之间进行通信)可至少部分地基本上根据分层描述(诸如所谓的开放系统互连(OSI)七层类型的方法和/或描述)来表征。网络计算和/或通信协议(也称为网络协议)指代信令约定集合,诸如用于通信传输,例如,如可能在网络中的设备之间和/或相互间发生的。在本专利申请的上下文中,术语“在…之间”和/或类似术语应理解为包括“在…之中”(如果适用于特定用途),反之亦然。同样,在本专利申请的上下文中,术语“与…相容”、“顺应”和/或类似术语应被理解为分别包括实质相容性和/或实质顺应性。
诸如基本上根据前述OSI描述表征的协议的网络协议具有若干个层。这些层被称为网络堆栈。诸如网络通信的各种类型的通信(例如,传输)可跨各个层发生。网络堆栈中诸如所谓物理层的最低层级的层可表征如何经由物理介质(例如,双绞线铜线、同轴电缆、光纤电缆、无线空气接口、它们的组合等)来将符号(例如,位和/或字节)作为一个或多个信号(和/或信号样本)传达。进展到网络协议栈中的更高层级的层,附加操作和/或特征可经由参与和这些更高层级的层处的特定网络协议基本兼容和/或基本上兼容的通信而可用。例如,网络协议的较高层级的层可例如影响设备许可、用户许可等。
图9示出了可用于实现任一类型或两种类型的网络的系统的实施方案1800。网络1808可包括一个或多个网络连接、链路、进程、服务、应用和/或资源,以促进和/或支持通信,诸如在计算设备(诸如1802)与另一计算设备(诸如1806)之间的通信信号的交换,该另一计算设备可例如包括一个或多个客户端计算设备和/或一个或多个服务器计算设备。作为示例而非限制,网络1808可包括无线和/或有线通信链路、电话和/或电信系统、Wi-Fi网络、Wi-MAX网络、互联网、局域网(LAN)、广域网(WAN)或它们的任何组合。
在实施方案中,图9中的示例性设备可以包括例如客户端计算设备和/或服务器计算设备的特征。还应注意,术语计算设备一般而言无论被用作客户端和/或服务器,还是除此以外,至少是指通过通信总线连接的处理器和存储器。例如,“处理器”和/或“处理电路”被理解为意味着可以包括控制单元和执行单元的计算设备的特定结构,诸如中央处理单元(CPU)、数字信号处理器(DSP)、图形处理单元(GPU)和/或神经网络处理单元(NPU)或它们的组合。在一方面中,处理器和/或处理电路可包括获取、解译及执行指令以处理输入信号来提供输出信号的设备。因此,至少在本专利申请的上下文中,这被理解为是指在35USC§112(f)的意义内的足够的结构,以便特别地旨在35USC§112(f)不通过使用术语“计算设备”、“处理器”、“处理单元”、“处理电路”和/或类似术语来暗示。然而,如果由于某些不明显的原因,确定前述理解不能成立,并且因此35USC§112(f)必然被术语“计算设备”和/或类似术语的使用所暗示,然后,根据该法定部分,用于执行一个或多个功能的相应结构、材料和/或动作被理解和解释为至少在图2至图8中以及在与本专利申请的前述图相关联的文本中描述。
现在参考图9,在实施方案中,第一设备1802和第三设备1806能够呈现例如用于网络设备和/或计算设备的图形用户界面(GUI),使得用户操作者可参与系统使用。在该图示中,设备1804可潜在地发挥类似的功能。同样,在图9中,计算设备1802(附图中的“第一设备”)可与计算设备1804(附图中的“第二设备”)进行交互,在一个实施方案中,该计算设备也可以包括例如客户端计算设备和/或服务器计算设备的特征。处理器(例如,处理设备)1820和可包括主存储器1824和辅助存储器1826的存储器1822可通过例如通信总线1815进行通信。在本专利申请的上下文中,术语“计算设备”指代包括以信号和/或状态的形式处理(例如,执行计算)和/或存储诸如电子文件、电子文档、测量、文本、图像、视频、音频等的数字内容的能力的系统和/或设备,诸如计算设备。因此,在本专利申请的上下文中,计算设备可包括硬件、软件、固件或它们的任何组合(除软件本身之外)。如图9所示,计算设备1804仅是一个示例,并且所要求保护的主题在范围上不限于该特定示例。图9还可以包括通信接口1830,该通信接口可以包括电路和/或设备,以促进例如使用本文所识别的一种或多种网络通信技术通过网络1808在第二设备1804与第一设备1802和/或第三设备1806之间传输消息。在特定具体实施中,通信接口1830可包括发射器设备,该发射器设备包括设备和/或电路,以至少部分地基于旨在由一个或多个接收方设备接收的消息根据特定通信格式调制物理传输介质中的物理信号。类似地,通信接口1830可包括接收器设备,该接收器设备包括用于解调物理传输介质中的物理信号的设备和/或电路,以至少部分地恢复用于根据特定通信格式调制物理信号的消息的至少一部分。在特定具体实施中,通信接口可包括收发器设备,该收发器设备具有用于实施接收器设备和发射器设备的电路。
对于一个或多个实施方案,设备诸如计算设备和/或网络设备可包括例如较宽范围的数字电子设备中的任一种,包括但不限于:台式计算机和/或笔记本电脑、高清电视、数字通用光盘(DVD)和/或其他光盘播放器和/或录像机、游戏机、卫星电视接收器、移动电话、平板设备、可穿戴设备、个人数字助理、移动音频和/或视频回放和/或录制设备、物联网(IoT)类型设备或者前述的任何组合。此外,除非另外特别说明,否则诸如参考流程图和/或其他方式描述的过程也可全部或部分地由计算设备和/或网络设备执行和/或影响。诸如计算设备和/或网络设备的设备可根据能力和/或特征而变化。所要求保护的主题旨在涵盖较宽范围的潜在变型。例如,设备可包括功能有限的数字小键盘和/或其他显示器,诸如用于显示文本的单色液晶显示器(LCD)。然而,相比之下,又如,启用网络的设备可包括物理和/或虚拟键盘、大容量存储装置、一个或多个加速度计、一个或多个陀螺仪、GNSS接收器和/或其他位置识别类型能力,和/或诸如触敏彩色5D或3D显示器的具有更高功能度的显示器。
在图9中,计算设备1802能够以例如物理状态和/或信号(例如,存储在存储器状态中)的形式提供可执行计算机指令的一个或多个源。例如,计算设备1802可通过网络连接与计算设备1804通信,诸如经由网络1808进行。如前所述,连接虽然是物理的,但可能不一定有形。尽管图9的计算设备1804示出了各种有形的物理部件,但所要求保护的主题不限于仅具有这些有形部件的计算设备,因为其他具体实施和/或实施方案可以包括可选布置,该可选布置可以包括例如在实现类似结果的同时发挥不同功能的附加有形部件或更少有形部件。相反,提供示例仅是说明性的。不旨在将所要求保护的主题限制在说明性示例的范围内。
存储器1822可包括任何非暂态存储机构。存储器1822可包括例如主存储器1824和辅助存储器1826,可使用附加存储器电路、机构或它们的组合。存储器1822可包括例如随机存取存储器、只读存储器等,诸如呈一个或多个存储设备和/或系统的形式,诸如例如包括光盘驱动器、磁带驱动器、固态存储器驱动器等的磁盘驱动器,仅列举数例。
存储器1822可用于存储可执行计算机指令的程序。例如,处理器1820可从存储器获取可执行指令并且继续执行所获取的指令。存储器1822还可包括用于访问设备可读介质1840的存储器控制器,该设备可读介质可承载和/或形成能够访问的数字内容,该数字内容可包括例如可由处理器1820和/或例如能够执行计算机指令的一些其他设备(诸如控制器)执行的代码和/或指令。在处理器1820的指导下,包括例如可执行计算机指令的程序的非暂态存储器(诸如存储物理状态(例如,存储器状态)的存储器单元)可由处理器1820执行并且能够生成待经由网络传达的信号,例如,如前所述。所生成的信号也可存储在存储器中,也可存储在先前建议的存储器中。
存储器1822可存储诸如与一个或多个用户相关的电子文件和/或电子文档,并且还可包括计算机可读介质,该计算机可读介质可承载和/或形成能够访问的内容,包括例如可由处理器1820和/或例如能够执行计算机指令的一些其他设备(诸如控制器)执行的代码和/或指令。如前所述,在整个本文档中使用的术语电子文件和/或术语电子文档等指代以某种方式相关联的所存储的存储器状态的集合和/或物理信号的集合,从而形成电子文件和/或电子文档。也就是说,这并不意指隐式地引用例如相对于相关联的存储器状态的集合和/或相关联的物理信号的集合所使用的特定语法、格式和/或方法。还需注意,存储器状态的关联性例如可以是逻辑意义上的并且不一定是有形的物理意义上的。因此,尽管电子文件和/或电子文档的信号和/或状态部件将在逻辑上相关联,但在一个实施方案中,该信号和/或状态部件的存储例如可驻留在有形的物理存储器中的一个或多个不同位置中。
算法描述和/或符号表示是信号处理和/或相关领域的普通技术人员用于向本领域的其他技术人员传达他们工作实质的技术的示例。在本专利申请的上下文中,算法被认为是并且通常被认为是导致所需结果的操作和/或类似信号处理的自相一致的序列。在本专利申请的上下文中,操作和/或处理涉及物理量的物理操纵。通常,尽管不是必需的,但此类量可采取能够被存储、传输、组合、比较、处理和/或以其他方式操纵的电和/或磁信号和/或状态的形式,例如,作为构成各种形式的数字内容(诸如信号测量、文本、图像、视频、音频等)的部件的电子信号和/或状态。
主要出于常用的原因,有时已经证明将此类物理信号和/或物理状态称为位、值、元素、参数、符号、字符、术语、样品、观察结果、权重、数字、数量、量度、内容等是方便的。然而,应当理解,所有这些和/或类似术语将与适当的物理量相关联,并且仅仅是为了方便的标签。除非另外特别说明,否则从前述讨论中显而易见的是,应当理解,在本说明书通篇中,使用术语诸如“处理”、“计算”、“确定”、“建立”、“获得”、“识别”、“选择”、“生成”等可指特定装置诸如专用计算机和/或类似的专用计算设备和/或网络设备的动作和/或过程。因此,在本说明书的上下文中,专用计算机和/或类似的专用计算和/或网络设备能够处理、操纵和/或变换专用计算机和/或类似的专用计算和/或网络设备的存储器、寄存器和/或其他存储设备、处理设备和/或显示设备内的通常为物理电子和/或磁量形式的信号和/或状态。在该特定专利申请的上下文中,如所提及的,术语“特定装置”因此包括通用计算和/或网络设备,诸如通用计算机,一旦被编程就诸如依据程序软件指令来执行特定功能。
在一些情况下,存储器设备的诸如从二进制一到二进制零的状态变化或反之亦然的操作可包括转换,诸如物理转换。对于特定类型的存储器设备,此类物理转换可包括制品到不同状态或事物的物理转换。例如但不限于,对于一些类型的存储器设备,状态变化可涉及聚积和/或存储电荷或者释放所存储的电荷。同样,在其他存储器设备中,状态变化可包括物理变化,诸如磁性取向的转换。同样,物理变化可包括分子结构的转换,诸如从结晶形式转变为无定形形式,或者反之亦然。在其他存储器设备中,物理状态的变化可涉及量子机械现象,诸如叠加、缠结等,这可涉及例如量子比特(量子位)。上述内容并非旨在穷举所有示例的列表,其中存储器设备中从二进制一到二进制零或反之亦然的状态变化可包括转换,诸如物理但非暂态的转换。相反,上述内容旨在作为说明性示例。
再次参考图9,处理器1820可以包括诸如数字电路的一个或多个电路,以执行计算步骤和/或过程的至少一部分。作为示例而非限制,处理器1820可包括一个或多个处理器,诸如控制器、微处理器、微控制器、专用集成电路、数字信号处理器(DSP)、图形处理单元(GPU)、神经网络处理单元(NPU)、可编程逻辑设备、现场可编程门阵列等或它们的任何组合。在各种具体实施和/或实施方案中,处理器1820可通常基本上根据所获取的可执行计算机指令来执行信号处理,诸如操纵信号和/或状态,构建信号和/或状态等,其中,以此类方式生成的信号和/或状态将被传达和/或存储在存储器中。
图9还将设备1804示出为包括能够与输入/输出设备一起操作的部件1832,例如,使得信号和/或状态可在设备之间适当地传达,诸如在设备1804与输入设备和/或设备1804与输出设备之间适当地传达。用户可利用输入设备,诸如计算机鼠标、触笔、轨迹球、键盘和/或能够接收用户动作和/或运动作为输入信号的任何其他类似设备。同样,对于具有语音到文本能力的设备,用户可与设备说话以生成输入信号。用户可利用输出设备,诸如显示器、打印机等、和/或能够为用户提供信号和/或生成诸如视觉刺激、音频刺激和/或其他类似刺激的刺激的任何其他设备。
根据一个实施方案,神经网络可包括图,该图包括用于对脑中的神经元进行建模的节点。在该上下文中,如本文所提及的“神经网络”意指由图定义和/或表示的处理设备的架构,该图包括:节点,这些节点用于表示处理输入信号以生成输出信号的神经元;以及边缘,这些边缘连接这些节点以表示由图表示的神经元之间和/或之中的输入和/或输出信号路径。在特定具体实施中,神经网络可包括由真实生物神经元组成的生物神经网络或由人工神经元组成的人工神经网络,以用于例如求解人工智能(AI)问题。在具体实施中,这种人工神经网络可由一个或多个计算设备实现,该一个或多个计算设备诸如包括中央处理单元(CPU)、图形处理单元(GPU)、数字信号处理(DSP)单元和/或神经处理单元(NPU)(仅提供几个示例)的计算设备。在特定具体实施中,与用于表示输入和/或输出路径的边缘相关联的神经网络权重可反映待应用的增益和/或连接节点之间的相关联连接是兴奋性连接(例如,具有正值的权重)还是抑制性连接(例如,具有负值的权重)。在示例性具体实施中,神经元可将神经网络权重应用于输入信号,并且对加权输入信号求和以生成线性组合。
根据一个实施方案,神经网络连接节点中的边缘可对能够在神经元之间传输(例如,由实数值表示的)信号的突触进行建模。响应于接收到这种信号,节点/神经元可执行一些计算以生成输出信号(例如,以被提供给神经网络中的由边缘连接的另一节点)。这种输出信号可至少部分地基于与提供输出信号的节点和/或边缘相关联的一个或多个权重和/或数值系数。例如,这种权重可增大或减小输出信号的强度。在特定具体实施中,此类权重和/或数值系数可随机器学习过程的进行而进行调整和/或更新。在一个具体实施中,如果输出信号的强度不超过阈值,则可禁止从神经网络中的节点传输输出信号。
图10是形成为“层”的神经网络1000的示意图,其中,初始层由节点1002形成,最终层由节点1006形成。NN 1000的全部或部分特征可以在系统200、300或400的方面中实现,诸如例如NN 202、NN 302或NN 402。神经网络(NN)1000可以包括由节点1004形成的中间层。节点1002和1004之间所示的边缘示出了从初始层到中间层的信号流。类似地,在节点1004和1006之间示出的边缘示出了从中间层到最终层的信号流。虽然神经网络1000示出了由节点1004形成的单个中间层,但是应当理解,神经网络的其他实现可以包括在初始层与最终层之间形成的多个中间层。
根据实施方案,节点1002、1004和/或1006可处理(例如,在一个或多个传入边缘上接收到的)输入信号,以根据激活函数提供输出信号(例如,在一个或多个传出边缘上)。如本文所提及的“激活函数意指与神经网络的节点相关联以将一个或多个输入信号映射到一个或多个输出信号的一组一个或多个操作。在特定具体实施中,这种激活函数可以至少部分地基于与神经网络的节点相关联的权重来定义。将一个或多个输入信号映射到一个或多个输出信号的激活函数的操作可以包括例如恒等、二元阶跃、逻辑(例如,S型和/或软阶跃)、双曲正切、修正线性单元、高斯误差线性单元、Softplus、指数线性单元、比例指数线性单元、泄漏修正线性单元、参数修正线性单元、S型线性单元、Swish、Mish、高斯和/或生长余弦单元操作。然而,应当理解,这些仅为可应用于在激活函数中将节点的输入信号映射到输出信号的操作的示例,并且要求保护的主题在这方面不受限制。另外,如本文所提及的“激活输入值”意指作为输入参数和/或信号提供给由神经网络中的节点定义和/或表示的激活函数的值。在该上下文中,如本文所提及的“激活输出值”意指由神经网络中的节点定义和/或表示的激活函数所提供的输出值。在特定具体实施中,可基于和/或响应于在节点处接收的一个或多个激活输入值而根据激活函数来计算和/或生成激活输出值。在特定具体实施中,激活输入值和/或激活输出值可被构造、设定尺寸和/或格式化为“张量”。因此,在本上下文中,如本文所提及的“激活输入张量”意指根据特定结构、尺寸和/或格式的一个或多个激活输入值的表达。同样地,在本上下文中,如本文所提及的“激活输出张量”意指根据特定结构、尺寸和/或格式的一个或多个激活输出值的表达。
在特定具体实施中,神经网络可在宽泛的任务范围,包括图像识别、语音识别(仅提供几个示例性应用)中实现改进结果。为了能够执行此类任务,神经网络的特征(例如,节点、边缘、权重、节点和边缘层)可被结构化和/或配置为形成可具有可测量/数值状态诸如输出信号的值的“滤波器”。这种滤波器可包括布置在“路径”中并且将对作为输入信号提供的传感器观察作出响应的节点和/或边缘。在一个具体实施中,这种滤波器的状态和/或输出信号可指示和/或推断输入信号中特征的存在或不存在的检测。
在特定具体实施中,用于执行由神经网络支持的功能的智能计算设备可以包括各种静止和/或移动设备,诸如例如,汽车传感器、生物芯片转发器、心脏监测植入物、物联网(IoT)设备、厨房器具、锁或类似紧固设备、太阳能面板阵列、家庭网关、智能仪表、机器人、金融交易平台、智能电话、蜂窝电话、安全相机、可穿戴设备、恒温器、全球定位系统(GPS)收发器、个人数字助理(PDA)、虚拟助理、膝上型计算机、个人娱乐系统、平板个人计算机(PC)、PC、个人音频或视频设备、个人导航设备,仅提供几个示例。
根据一个实施方案,神经网络可被分层结构化,使得特定神经网络层中的节点可从位于神经网络中上游层中的一个或多个节点接收输出信号,并且向位于神经网络中下游层中的一个或多个节点提供输出信号。一种特定分类的分层神经网络可包括使得能够进行深度学习的卷积神经网络(CNN)或空间不变人工神经网络(SIANN)。此类CNN和/或SIANN可至少部分地基于卷积核的共享权重架构,该共享权重架构可转换输入特征并且提供平移等变性响应。此类CNN和/或SIANN可应用于图像和/或视频识别、推荐系统、图像分类、图像分割、医学图像分析、自然语言处理、脑机接口、金融时间序列,仅提供几个示例。
另一类分层神经网络可以包括递归神经网络(RNN),该RNN是节点之间的连接沿着时间序列形成有向循环图的一类神经网络。这样的时间序列可以实现时间动态行为的建模。在具体实施中,RNN可采用内部状态(例如,存储器)来处理可变长度的输入序列。这可以应用于例如诸如未分段的、连接的手写识别或语音识别等任务,仅提供几个示例。在特定具体实施中,RNN可以使用有限脉冲响应(FIR)或无限脉冲响应(IIR)结构来模仿时间行为。RNN可以包括附加结构,以控制这样的FIR和IIR结构的存储状态被老化。控制这种存储状态的结构可以包括包含时间延迟和/或具有反馈回路的网络或图,诸如,在长短期记忆网络(LSTM)和门控递归单元中。
根据实施方案,一个或多个神经网络的输出信号(例如,单独地或组合地获取)可以至少部分地定义“预测器”,以生成与一些可观察和/或可测量现象和/或状态相关联的预测值。在具体实施中,神经网络可被“训练”,以提供能够基于根据损失函数优化的输入值(例如,测量结果和/或观察结果)生成这种预测值的预测器。例如,训练过程可采用反向传播技术来至少部分地基于“训练集”迭代地更新要与神经网络的节点和/或边缘相关联的神经网络权重。这样的训练集可以包括训练测量结果和/或观察结果,以作为与“基准真值”观察结果配对的输入值来提供。基于这种基准真值观察结果与根据训练过程中的这种输入值生成的相关联预测值的比较,可使用反向传播根据损失函数来更新权重。
本文所公开的一个实施方案涉及一种方法,该方法包括:建立具有第一像素分辨率的一个或多个图像帧;将一个或多个图像帧中的至少一个图像帧变换为具有第二像素分辨率的图像帧;将具有第二像素分辨率的图像帧作为输入值应用于神经网络,以提供在处理具有第一像素分辨率的一个或多个图像帧时要应用的参数。在一个特定具体实施中,第二像素分辨率是比第一像素分辨率低的像素分辨率。在另一特定具体实施中,该方法还包括在一个或多个时间反走样操作中将参数应用于具有第一像素分辨率的一个或多个图像帧。例如,用于生成图像帧的所应用的参数可以具有比第一像素分辨率和第二像素分辨率更高的分辨率。在另一示例中,要在一个或多个图像帧的处理中应用的参数可以包括要在验证操作中应用于图像信号强度值的每像素系数。与像素相关联的每像素系数还可包括要应用于与包括像素的邻接像素相关联的图像信号强度值的系数,其中,在一个或多个图像帧的处理中要应用的参数包括相对于像素的位置的偏移,以应用与像素相关联的每像素系数。在另一特定具体中,该方法还可以包括:确定与已经从像素的位置偏移的抽头相关联的图像信号强度值的加权和;以及确定加权和与像素的位置处的图像信号强度值的扭曲历史之间的差值。例如,在处理一个或多个图像帧时要应用的参数还可以包括箝位权重,而该方法还包括:将箝位权重应用于该像素的位置处的图像信号强度值的均值与扭曲历史之间的所确定的差值,以确定该像素的位置的经修正的图像信号强度值。在处理一个或多个图像帧时要应用的参数还可以包括混合系数,而该方法还包括:将混合系数应用于经修正的图像信号强度值,以确定与像素的位置相关联的累积图像信号强度值。
本文所公开的另一实施方案涉及一种装置,该装置包括存储器以及耦接到存储器的一个或多个处理器,以:建立具有第一像素分辨率的一个或多个图像帧;将一个或多个图像帧中的至少一个图像帧变换为具有第二像素分辨率的图像帧;以及将具有第二像素分辨率的图像帧作为输入值应用于神经网络,以提供在处理具有第一像素分辨率的一个或多个图像帧时要应用的参数。在一个特定具体实施中,第二像素分辨率是比第一像素分辨率低的像素分辨率。在另一特定具体实施中,一个或多个处理器进一步在一或多个时间反走样操作中将参数应用于具有第一像素分辨率的一或多个图像帧。例如,用于生成图像帧的所应用的参数可以具有比第一像素分辨率和第二像素分辨率更高的分辨率。在另一示例中,要在一个或多个图像帧的处理中应用的参数可以包括要在验证操作中应用于图像信号强度值的每像素系数。与像素相关联的每像素系数还可包括要应用于与包括像素的邻接像素相关联的图像信号强度值的系数,其中,在一个或多个图像帧的处理中要应用的参数包括相对于像素的位置的偏移,以应用与像素相关联的每像素系数。在另一特定具体实施中,一个或多个处理器还可以:确定与已经从像素的位置偏移的抽头相关联的图像信号强度值的加权和;以及确定加权和与像素的位置处的图像信号强度值的扭曲历史之间的差值。例如,在处理一个或多个图像帧时要应用的参数还可以包括箝位权重,而一个或多个处理器还用于:将箝位权重应用于该像素的位置处的图像信号强度值的均值与扭曲历史之间的所确定的差值,以确定该像素的位置的经修正的图像信号强度值。在处理一个或多个图像帧时要应用的参数还可以包括混合系数,而一个或多个处理器还用于:将混合系数应用于经修正的图像信号强度值,以确定与像素的位置相关联的累积图像信号强度值。
本文所公开的另一个实施方案涉及一种制品,该制品包括:非暂态存储介质,该非暂态存储介质包括在其上存储的计算机可读指令,该计算机可读指令能够由计算设备的一个或多个处理器执行,以在电路设备中表达:用于建立具有第一像素分辨率的一个或多个图像帧的电路;用于将一个或多个图像帧中的至少一个图像帧变换为具有第二像素分辨率的图像帧的电路;和用于将具有第二像素分辨率的图像帧作为输入值应用于神经网络,以提供在处理具有第一像素分辨率的一个或多个图像帧时要应用的参数的电路。在一个特定具体实施中,第二像素分辨率是比第一像素分辨率低的像素分辨率。在另一特定具体实施中,指令还可以由计算设备执行,以表达在一个或多个时间反走样操作中将参数应用于具有第一像素分辨率的一个或多个图像帧的电路。例如,用于生成图像帧所应用的参数可以具有比第一像素分辨率和第二像素分辨率更高的分辨率。在另一示例中,要在一个或多个图像帧的处理中应用的参数可以包括要在验证操作中应用于图像信号强度值的每像素系数。与像素相关联的每像素系数还可包括要应用于与包括像素的邻接像素相关联的图像信号强度值的系数,其中,在一个或多个图像帧的处理中要应用的参数包括相对于像素的位置的偏移,以应用与像素相关联的每像素系数。在另一特定具体实施中,指令还可以由计算设备执行,以表达确定与已经从像素的位置偏移的抽头相关联的图像信号强度值的加权和的电路;和确定加权和与像素的位置处的图像信号强度值的扭曲历史之间的差值的电路。例如,在处理一个或多个图像帧时要应用的参数还可以包括箝位权重,指令还可由计算设备执行,以表达将箝位权重应用于该像素的位置处的图像信号强度值的均值与扭曲历史之间的所确定的差值,来确定该像素的位置的经修正的图像信号强度值的电路。在处理一个或多个图像帧时要应用的参数还可以包括混合系数,而指令还能够由计算设备执行,以表达将混合系数应用于经修正的图像信号强度值,来确定与像素的位置相关联的累积图像信号强度值的电路。
在前面的描述中,已经描述了要求保护的主题的各个方面。出于解释的目的,阐述了作为示例的细节,诸如量、系统和/或构型。在其他情况下,省略和/或简化了熟知的特征,以避免导致要求保护的主题模糊。虽然本文已举例说明和/或描述了某些特征,但本领域的技术人员现在将想到许多修改形式、替代形式、变化形式和/或等同形式。因此,应当理解,所附权利要求旨在涵盖落入所要求保护的主题内的所有修改形式和/或变化形式。
Claims (20)
1.一种方法,包括:
执行神经网络,以至少部分地基于当前输入张量来提供输出特征映射和当前输出张量,所述当前输入张量至少部分地基于时变内容信号;
至少部分地基于一个或多个运动向量来扭曲输出特征映射;
执行所述神经网络,以至少部分地基于经扭曲的输出特征映射和后续输入张量来提供后续输出张量;以及
应用所述后续输出张量的至少一部分,以至少部分地将变换应用于所述时变内容信号。
2.根据权利要求1所述的方法,其中:
所述时变内容信号包括图像帧的时间序列;并且
所述变换包括一个或多个时间反走样操作。
3.根据权利要求2所述的方法,其中所述当前输入张量包括图像帧,并且其中所述当前输出张量包括一个或多个参数,所述一个或多个参数适用于修正图像帧的历史,以用于构造输出图像帧。
4.根据权利要求3所述的方法,所述后续输出张量还包括适用于将所述当前输入张量与所构造的输出图像帧累积的参数。
5.根据权利要求1所述的方法,还包括在一个或多个图像反走样操作中将从所述后续输出张量获得的参数应用于一个或多个图像帧。
6.根据权利要求5所述的方法,其中从所述后续输出张量获得的所应用的参数包括要在验证操作中应用于图像信号强度值的每像素系数。
7.根据权利要求6所述的方法,其中与像素相关联的像素系数包括要应用于与包括所述像素的邻接像素相关联的图像信号强度值的系数,并且其中要应用于所述一个或多个反走样操作中的所述参数包括相对于所述像素的位置的空间偏移,以用于应用与所述像素相关联的所述像素系数。
8.根据权利要求7所述的方法,还包括:
对与已经从所述像素的所述位置偏移的抽头相关联的图像信号强度值进行滤波;以及
确定经滤波的图像信号强度值与所述像素的所述位置处的图像信号强度值的扭曲历史之间的差值。
9.根据权利要求8所述的方法,其中要应用于所述一个或多个图像反走样操作中的所述参数还包括箝位权重,所述方法还包括:
将所述箝位权重应用于经滤波的图像信号强度值与所述像素的所述位置处的图像信号强度值的所述扭曲历史之间的所确定的差值,以确定所述像素的所述位置的经修正的图像信号强度值。
10.根据权利要求9所述的方法,其中要应用于所述一个或多个反走样操作中的所述参数还包括混合系数,所述方法还包括:
将所述混合系数应用于经修正的图像信号强度值,以确定与所述像素的所述位置相关联的累积图像信号强度值。
11.一种装置,包括:
存储器;和
一个或多个处理器,所述一个或多个处理器耦接到所述存储器,以:
开始执行神经网络,以至少部分地基于当前输入张量来提供输出特征映射和当前输出张量,所述当前输入张量至少部分地基于时变内容信号;
至少部分地基于一个或多个运动向量来扭曲所述输出特征映射;
开始执行所述神经网络,以至少部分地基于经扭曲的输出特征映射和后续输入张量来提供后续输出张量;以及
应用所述后续输出张量的至少一部分,以至少部分地将变换应用于所述时变内容信号。
12.根据权利要求11所述的装置,其中:
所述时变内容信号包括图像帧的时间序列;
所述变换包括一个或多个时间反走样操作;
所述当前输入张量包括图像帧;并且
所述当前输出张量包括一个或多个参数,所述一个或多个参数适用于修正图像帧的历史,以用于构造输出图像帧。
13.根据权利要求11所述的装置,其中:
所述一个或多个处理器还用于:
在一个或多个图像反走样操作中将从所述后续输出张量获得的参数应用于一个或多个图像帧;以及
从所述后续输出张量获得的所应用的参数包括要在验证操作中应用于图像信号强度值的每像素系数。
14.根据权利要求13所述的装置,其中:
与像素相关联的所述每像素系数包括要应用于与包括所述像素的邻接像素相关联的图像信号强度值的系数,并且其中要应用于所述反走样操作中的所述参数包括相对于所述像素的位置的空间偏移,以用于应用与所述像素相关联的所述像素系数;并且
所述一个或多个处理器还用于:
对与已经从所述像素的所述位置偏移的抽头相关联的图像信号强度值进行滤波;以及
确定经滤波的图像信号强度值与所述像素的所述位置处的图像信号强度值的扭曲历史之间的差值。
15.根据权利要求14所述的装置,其中:
要在所述一个或多个反走样操作中应用的参数还包括箝位权重;并且
所述一个或多个处理器还用于:
将所述箝位权重应用于经滤波的图像信号强度值与所述像素的所述位置处的图像信号强度值的所述扭曲历史之间的所确定的差值,以确定所述像素的所述位置的经修正的图像信号强度值。
16.一种制品,包括:
非暂态存储介质,所述非暂态存储介质包括在其上存储的计算机可读指令,所述计算机可读指令能够由计算设备的一个或多个处理器执行,以在电路设备中表达:
用于开始执行神经网络以至少部分地基于当前输入张量来提供输出特征映射和当前输出张量的电路,所述当前输入张量至少部分地基于时变内容信号;
用于至少部分地基于一个或多个运动向量来扭曲所述输出特征映射的电路;
用于开始执行所述神经网络以至少部分地基于经扭曲的输出特征映射和后续输入张量来提供后续输出张量的电路;和
用于应用所述后续输出张量的至少一部分以至少部分地将变换应用于所述时变内容信号的电路。
17.根据权利要求16所述的制品,其中:
所述时变内容信号包括图像帧的时间序列;
所述变换包括一个或多个时间反走样操作;
所述当前输入张量包括图像帧;并且
所述当前输出张量包括一个或多个参数,所述一个或多个参数适用于修正图像帧的历史,以用于构造输出图像帧。
18.根据权利要求16所述的制品,其中:
所述指令还能够由所述计算设备执行,以在所述电路设备中表达用于在一个或多个图像反走样操作中将从所述后续输出张量获得的参数应用于一个或多个图像帧的电路;并且
从所述后续输出张量获得的所应用的参数包括要在验证操作中应用于图像信号强度值的每像素系数。
19.根据权利要求18所述的制品,其中:
与像素相关联的像素系数包括要应用于与包括所述像素的邻接像素相关联的图像信号强度值的系数,并且其中要应用于所述反走样操作中的所述参数包括相对于所述像素的位置的空间偏移,以用于应用与所述像素相关联的所述像素系数;并且
所述指令还能够由所述计算设备执行,以在所述电路设备中表达:
用于对与已经从所述像素的所述位置偏移的抽头相关联的图像信号强度值进行滤波的电路;和
用于确定经滤波的图像信号强度值与所述像素的所述位置处的图像信号强度值的扭曲历史之间的差值的电路。
20.根据权利要求19所述的制品,其中:
要在所述一个或多个反走样操作中应用的参数还包括箝位权重;并且
所述指令还能够由所述计算设备执行,以在所述电路设备中表达电路,所述电路用于将所述箝位权重应用于与所述抽头相关联的经滤波的图像信号强度值与所述像素的所述位置处的图像信号强度值的所述扭曲历史之间的所确定的差值,以确定所述像素的所述位置的经修正的图像信号强度值。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/816,655 US20240037713A1 (en) | 2022-08-01 | 2022-08-01 | System, devices and/or processes for image anti-aliasing |
US17/816,655 | 2022-08-01 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117495685A true CN117495685A (zh) | 2024-02-02 |
Family
ID=87851924
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310928943.XA Pending CN117495685A (zh) | 2022-08-01 | 2023-07-27 | 用于图像反走样的系统、设备和/或过程 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20240037713A1 (zh) |
CN (1) | CN117495685A (zh) |
GB (1) | GB2623399A (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230308467A1 (en) * | 2022-03-24 | 2023-09-28 | At&T Intellectual Property I, L.P. | Home Gateway Monitoring for Vulnerable Home Internet of Things Devices |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11367165B2 (en) * | 2020-05-19 | 2022-06-21 | Facebook Technologies, Llc. | Neural super-sampling for real-time rendering |
-
2022
- 2022-08-01 US US17/816,655 patent/US20240037713A1/en active Pending
-
2023
- 2023-07-24 GB GB2311358.2A patent/GB2623399A/en active Pending
- 2023-07-27 CN CN202310928943.XA patent/CN117495685A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
GB2623399A (en) | 2024-04-17 |
GB202311358D0 (en) | 2023-09-06 |
US20240037713A1 (en) | 2024-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108710885B (zh) | 目标对象的检测方法和装置 | |
CN111915480B (zh) | 生成特征提取网络的方法、装置、设备和计算机可读介质 | |
CN111402113B (zh) | 图像处理方法、装置、电子设备及计算机可读介质 | |
CN117495685A (zh) | 用于图像反走样的系统、设备和/或过程 | |
CN112800276A (zh) | 视频封面确定方法、装置、介质及设备 | |
US20240029420A1 (en) | System, devices and/or processes for application of kernel coefficients | |
US20240029196A1 (en) | System, devices and/or processes for temporal upsampling image frames | |
CN115546766B (zh) | 车道线生成方法、装置、电子设备和计算机可读介质 | |
WO2023030426A1 (zh) | 息肉识别方法、装置、介质及设备 | |
CN112381184B (zh) | 图像检测方法、装置、电子设备和计算机可读介质 | |
CN114898190A (zh) | 一种图像处理方法和装置 | |
CN111369429B (zh) | 图像处理方法、装置、电子设备及计算机可读介质 | |
CN118071660A (zh) | 用于应用强度导数用于时域图像稳定性的系统、设备和/或过程 | |
US11954827B2 (en) | System, devices and/or processes for application of machine learning to image anti-aliasing | |
US20240177277A1 (en) | System, devices and/or processes for application of an intensity derivative for temporal image stability | |
CN114120423A (zh) | 人脸图像检测方法、装置、电子设备和计算机可读介质 | |
KR20240077450A (ko) | 시간적 이미지 안정성을 위한 강도 도함수의 적용을 위한 시스템, 디바이스들 및/또는 프로세스들 | |
US20240073449A1 (en) | System, devices and/or processes for adaptive image resolution scaling | |
CN111612714A (zh) | 图像修复方法、装置和电子设备 | |
US20230290131A1 (en) | System, devices and/or processes for application of kernel coefficients | |
CN114155366B (zh) | 动态柜图像识别模型训练方法、装置、电子设备和介质 | |
US20230281752A1 (en) | System, devices and/or processes for processing image pixel values | |
CN116912631B (zh) | 目标识别方法、装置、电子设备及存储介质 | |
CN115841151B (zh) | 模型训练方法、装置、电子设备和计算机可读介质 | |
CN116664744A (zh) | 用于动态时间性反走样技术选择的系统、设备和/或过程 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |