CN116457837A

CN116457837A - 基于图像的质量评估采样度量

Info

Publication number: CN116457837A
Application number: CN202280007302.4A
Authority: CN
Inventors: 张翔; 黄超; 刘杉
Original assignee: Tencent America LLC
Current assignee: Tencent America LLC
Priority date: 2021-07-13
Filing date: 2022-07-12
Publication date: 2023-07-18

Abstract

本公开的各方面提供了用于三维(3D)图形建模的质量评估的方法和装置。在一些示例中，用于质量评估的装置包括处理电路。该处理电路响应于用于从三维(3D)空间投影到二维(2D)空间的虚拟相机的位置改变来确定更新的虚拟相机位置。该处理电路根据该更新的虚拟相机位置投影参考3D表示以生成参考2D图像，并且根据该更新的虚拟相机位置投影处于评估的3D表示以生成评估2D图像。该处理电路基于该参考2D图像和该评估2D图像来计算与该更新的虚拟相机位置相关联的评估分数。

Description

基于图像的质量评估采样度量

相关申请的交叉引用

本申请要求于2022年7月11日提交的第17/862,154号美国专利申请“基于图像的质量评估采样度量”的优先权权益，该美国专利申请要求于2021年7月13日提交的第63/221,365号美国临时申请“基于图像的网格质量评估采样度量”的优先权权益。这两个在先申请的公开内容通过引用全部并入本文中。

技术领域

本公开描述了总体上与3维(3D)图形建模的质量评估相关的实施例。

背景技术

本文中提供的背景描述目的在于总体上介绍本公开的背景。目前命名的发明人的某些工作(即已在此背景技术部分中作出描述的工作)以及说明书中关于某些尚未成为申请日之前的现有技术的内容，无论是以明确或隐含的方式均不被视为相对于本公开的现有技术。

开发了各种技术以在3维(3D)空间中捕捉和表示世界，例如世界中的物体、世界中的环境等。世界的3D表示可以使更沉浸式的交互和交流形式成为可能。

发明内容

本公开的各方面提供了用于3维(3D)图形建模的质量评估的方法和装置。在一些示例中，用于质量评估的装置包括处理电路。该处理电路响应于用于从三维(3D)空间投影到二维(2D)空间的虚拟相机的位置改变来确定更新的虚拟相机位置。该处理电路根据该更新的虚拟相机位置投影参考3D表示以生成参考2D图像，并且根据该更新的虚拟相机位置投影处于评估的3D表示以生成评估2D图像。该处理电路基于该参考2D图像和该评估2D图像来计算与该更新的虚拟相机位置相关联的评估分数。

在一些实施例中，该处理电路将该位置改变的旋转矩阵应用于先前虚拟相机位置以确定该更新的虚拟相机位置。在一些示例中，该处理电路经由用户接口接收该旋转矩阵作为输入参数。

在一些实施例中，该处理电路基于多个虚拟相机的位置改变来确定第一多个更新的虚拟相机位置。该处理电路根据该第一多个更新的虚拟相机位置投影该参考3D表示，以生成与该第一多个更新的虚拟相机位置相关联的第一多个参考2D图像；并且根据该第一多个更新的虚拟相机位置投影该处于评估的3D表示，以生成与该第一多个更新的虚拟相机位置相关联的第一多个评估2D图像。该处理电路基于该第一多个参考2D图像和该第一多个评估2D图像计算分别与该第一多个更新的虚拟相机位置相关联的第一多个评估分数。该处理电路计算该第一多个评估分数的加权平均评估分数。

在一个示例中，该第一多个更新的虚拟相机位置在该3D空间中的球体上被均匀采样。在另一个示例中，该第一多个更新的虚拟相机位置在该3D空间中的该球体上被随机采样。

在一些示例中，该处于评估的3D表示包括具有该参考3D表示中的对应帧的多个帧。该第一多个更新的虚拟相机位置用于投影该处于评估的3D表示的第一帧和该参考3D表示的第一对应帧。该处理电路确定该多个虚拟相机的第二多个更新的虚拟相机位置。该第二多个更新的虚拟相机位置用于投影该处于评估的3D表示的第二帧和该参考3D表示的第二对应帧。

在一个示例中，该处理电路基于相机移动路径来确定该多个虚拟相机的该第二多个更新的虚拟相机位置。

在另一个示例中，该处理电路基于第一相机移动路径来确定该第二多个更新的虚拟相机位置中的第一位置，并且基于第二相机移动路径来确定该第二多个更新的虚拟相机位置中的第二位置。该第一位置与该多个虚拟相机中的第一虚拟相机相关联，并且该第二位置与该多个虚拟相机中的第二虚拟相机相关联。

在一些示例中，为了计算该第一多个评估分数的该加权平均评估分数，该处理电路基于该处于评估的3D表示的该投影来确定用于对该第一多个评估分数进行加权的权重；并且基于该权重计算该加权平均评估分数。在一个示例中，该处理电路基于被投影在该第一多个评估2D图像中的有效像素的相应数量来确定用于对该第一多个评估分数进行加权的该权重。在另一个示例中，该处理电路基于该处于评估的3D表示到对应于该第一多个更新的虚拟相机位置的投影平面的相应距离来确定用于对该第一多个评估分数进行加权的该权重。

在一些示例中，该处于评估的3D表示包括具有该参考3D表示中的对应帧的多个帧。该第一多个更新的虚拟相机位置用于投影该处于评估的3D表示的第一帧和该参考3D表示的第一对应帧，该加权平均评估分数是该第一帧的第一帧级评估分数。该处理电路基于该第一多个更新的虚拟相机位置来确定用于对该第一帧级评估分数进行加权的第一帧权重。该处理电路计算作为该多个帧的加权平均分数的最终评估分数。该第一帧级评估分数由该最终评估分数中的该第一帧权重进行加权。

在一个示例中，该处理电路基于该第一多个更新的虚拟相机位置中的若干位置来确定该第一帧权重。在另一个示例中，该处理电路基于该第一多个更新的虚拟相机位置的位置来确定该第一帧权重。

在一个示例中，该评估分数是基于峰值信噪比(peak signal-to-noise ratio,PSNR)计算的。在一个示例中，该评估分数是基于结构相似性指数度量(structuralsimilarity index metric,SSIM)计算的。在一个示例中，该评估分数是基于视觉信息保真度(visual information fidelity,VIF)计算的。在一个示例中，该评估分数是基于视频多方法评估融合(video multi-method assessment fusion,VMAF)计算的。在一个示例中，该评估分数是基于盲/无参考的空间域图像质量评估算法(blind/referenceless imagespatial quality evaluator,BRISQUE)计算的。在一个示例中，该评估分数是基于基于失真识别的图像真实性和完整性评估(distortion identification-based image verityand integrity evaluation,DIIVINE)计算的。

本公开的各方面还提供了一种存储指令的非暂时性计算机可读介质，当由计算机执行时，该指令使计算机执行用于3D图形建模的质量评估方法。

附图说明

根据以下详细描述和附图，所公开的主题的其他特征、性质和各种优点将更加明显，在附图中：

图1示出了例示在一些示例中从三维(3D)空间投影到二维(2D)空间的示例的图。

图2示出了从16个不同视角方向渲染的2D图像。

图3示出了例示在一些示例中基于图像的采样度量的计算的图。

图4示出了根据本公开一些实施例的概述另一个过程的流程图。

图5示出了根据本公开一些实施例的概述另一个过程的流程图。

图6示出了根据本公开一些实施例的概述另一个过程的流程图。

图7是根据一个实施例的计算机系统的示意图。

具体实施方式

本公开的各方面提供了用于3D图形建模的质量评估的技术。在一些示例中，这些技术可以改进用于三维(3D)表示的质量评估的基于图像的采样度量(metric)。

在一些示例中，点云和网格可以用作世界的3D表示。点云是3D空间中的一组点，每个点都具有相关联的属性，例如颜色、材质性质、纹理信息、强度属性、反射率属性、运动相关属性、模态属性和各种其他属性。这样的点云可以包括大量数据，并且存储和传输可能成本高昂且耗时。在一些示例中，可以开发压缩技术来减少表示点云所需的数据量以实现更快的传输或减少存储。例如，点云的有损压缩在实时通信和六自由度(six Degrees ofFreedom,6DoF)虚拟现实中能够非常有用。在一些示例中，可以将压缩技术应用于原始3D表示(例如，原始点云、原始网格等)以生成具有对原始3D表示的失真的点云。

网格(在一些示例中也被称为多边形网格)是定义多面体对象形状的顶点、边和面的集合。面通常包括三角形(三角形网格)、四边形(四方)或其他简单的凸多边形。在一些示例中，面可以包括凹多边形或甚至带有孔的多边形。在一些示例中，可以开发网格技术，目标为提高数值计算的速度或精度。在一些示例中，可以在原始3D表示(例如，原始点云、原始网格等)上应用网格技术以生成具有对原始3D表示的失真的新网格。

根据本公开的一个方面，可以使用两种类型的方法执行3D表示的质量评估：基于点的方法和基于图像的方法。

在一些示例中，为了使用基于点的方法，将3D表示转换为点云表示。例如，为了比较第一网格与第二网格，第一网格的表面采样可以生成与第一网格相关联的第一点云表示，第二网格的表面采样可以生成与第二网格相关联的第二点云表示。基于与第一网格相关联的第一点云表示和与第二网格相关联的第二点云表示，可以计算一些度量，例如峰值信噪比(PSNR)、点云质量度量(point cloud quality metric,PCQM)等。

在一些示例中，第一3D表示是点云(被称为第一点云)，第二3D表示是网格。网格的表面采样可以生成第二点云。基于第一点云和第二点云，可以计算一些度量，例如峰值信噪比(PSNR)、点云质量度量(PCQM)等，以比较第一3D表示和第二3D表示。

在一些示例中，为了使用基于图像的方法，将3D表示从3D空间投影到2D空间。例如，可以将3D表示投影到投影平面上以生成二维(2D)图像，并且3D表示的质量评估是基于2D图像的。每个3D表示可以是任何合适的3D表示，例如点云、网格等。注意，在一些示例中，通过从3D空间投影到2D空间而生成的2D图像可以包括颜色值的2D矩阵(也被称为颜色图像)、二进制掩模值的2D矩阵(也被称为掩模图像)和深度值的2D矩阵(也被称为深度图像)。

图1示出了例示在一些示例中在3D空间中投影3D表示(110)以在2D空间中渲染一个或多个2D图像(150)的示例的图。

3D表示(110)可以是点云或网格。在图1的示例中，可以获得3D表示(110)的边界球体(120)。在一个示例中，可以通过确定3D表示(110)的边界框(例如，矩形框)以及基于边界框的中心和对角线确定边界球体(120)来获得边界球体(120)。

在一些示例中，可以基于诸如使用视角方向向量vd_i定义的视角方向生成2D图像(150)，该向量vd_i指向3D空间中的边界球体(120)的中心。

在一些示例中，可以使用正交投影来渲染2D图像(150)。视角方向向量vd_i的投影平面(130)是与边界球体(120)相切且垂直于视角方向向量vd_i的平面。

在一些示例中，可以使用虚拟相机描述从3D空间到2D空间的投影的视角方向。例如，在边界球体(120)上确定虚拟相机的位置(也被称为虚拟相机位置)，视角方向是从虚拟相机位置到边界球体(120)的中心的方向。在另一个示例中，当确定视角方向时，平行于视角方向并且通过边界球体(120)的中心的直线可以在虚拟相机位置处与边界球体相交。在图1的示例中，当虚拟相机被放置在例如方位A时，虚拟相机的视角方向可以由视角方向向量vd_i指定。2D图像(150)可以被描述为由虚拟相机拍摄，该虚拟相机被放置在例如方位A处并且在视角方向上拍摄3D表示(120)的照片。

根据本公开的一个方面，根据视角方向向量vd_i的渲染结果可以是包括颜色图像、掩模图像和深度图像的2D图像。在一些示例中，颜色缓冲器存储与视角方向向量vd_i相关联的颜色图像；掩模缓冲器存储与视角方向向量vd_i相关联的掩模图像；并且深度缓冲器存储与视角方向向量vd_i相关联的深度图像。

在一些示例中，3D表示(110)是网格，颜色缓冲器可以针对每个像素(m，n)存储最近的投影三角形的颜色，例如RGB值或其他颜色格式值。在一个示例中，3D表示(110)是纹理网格，RGB颜色可以通过使用三角形UV坐标的纹理图的双线性插值来获得。在另一个示例中，3D表示(110)是逐顶点网格的颜色(无纹理图)，可以基于使用重心坐标混合顶点颜色来确定像素的颜色。掩码缓冲器可以针对每个像素(m，n)存储二进制值。在一个示例中，如果存在像素的投影，则将像素(m，n)的二进制值设置为1；否则，则将像素的二进制值设置为0。深度缓冲器可以针对每个像素(m，n)存储3D空间中从投影平面(130)到3D表面(从投影平面上的像素(m，n)到网格的视角方向向量vd_i的最近交点)的距离d_m,n(图1中的(140)所示)。

在图1的示例中，示出了颜色图像以例示根据由视角方向向量vd_i指定的视角方向从投影渲染的2D图像(150)。

图2示出了从16个不同视角方向渲染的2D图像(例如颜色图像)(251)-(266)。

根据本公开的一些方面，基于图像的方法可以使用基于图像的采样度量(image-based sampling metric,IBSM)来计算评估分数，以基于参考3D表示(也被称为第一3D表示)来评估处于评估的3D表示(也被称为第二3D表示)的质量。在一些示例中，参考3D表示是原始3D表示，处于评估的3D表示是基于原始3D表示生成的(例如，根据建模技术)。处于评估的3D表示可以具有对原始3D表示的失真。

在一些示例中，为了使用IBSM计算评估分数，生成了多个投影图像。例如，第一组虚拟相机被放置在相对于第一3D表示的特定位置处以生成第一组2D图像，而第二组虚拟相机被放置在相对于第二3D表示的对应位置处以生成第二组2D图像。然后，可以基于第一组2D图像和第二组2D图像来计算IBSM的评估分数。注意，在一些示例中，虚拟相机用于指定视角方向。第一组虚拟相机和第二组虚拟相机可以被放置在第一3D表示和第二3D表示的对应相机位置。这些相机位置与视角方向相关联。因此，第一组2D图像和第二组2D图像是从相同的视角方向拍摄的。

具体地，在一些示例中，第一颜色缓冲器存储与视角方向相关联的第一组颜色图像，第一掩模缓冲器存储与视角方向相关联第一组掩模图像，第一深度缓冲器存储与视角方向相关联的第一组深度图像。类似地，第二颜色缓冲器存储与视角方向相关联的第二组颜色图像，第二掩模缓冲器存储与视角方向相关联的第二组掩模图像，第二深度缓冲器存储与视角方向相关联的第二组深度图像。

在一些示例中，可以基于每对颜色缓冲器和每对深度缓冲器计算每个视角方向的颜色图像和深度图像的PSNR值。颜色图像的PSNR值估计颜色失真。在一个示例中，基于第一颜色缓冲器中的第一颜色图像和第二颜色缓冲器中的第二颜色图像来计算PSNR值。第一颜色图像和第二颜色图像可以具有相同的视角方向。深度图像的PSNR值估计几何失真。在一个示例中，基于第一深度缓冲器中的第一深度图像和第二深度缓冲器中的第二深度图像来计算PSNR值。第一深度图像和第二深度图像可以具有相同的视角方向。

在一个示例中，通过对来自不同视角方向和不同时间帧(例如，包括多个网格帧的动态网格)的所有PSNR值进行平均来计算最终PSNR值。

图3示出了例示在一些示例中使用基于图像的采样度量来计算评估值的图。

在图3的示例中，第一3D表示(310A)是参考3D表示，第二3D表示(310B)是处于评估的3D表示。

在一些示例中，确定了诸如由V1、V2、V3等所示的一组视角方向。根据该组视角方向，针对第一3D表示(310A)生成了第一组多个投影图像(也被称为2D图像)，并且针对第二3D表示(310B)生成了第二组多个投射图像。例如，根据视角方向V2，从第一3D表示(310A)生成颜色图像COLOR2A、掩模图像MASK2A和深度图像DEPTH2A。颜色图像COLOR2A被存储在颜色缓冲器A中，掩模图像MASK2A被存储在掩模缓冲器A中并且深度图像DEPTH2A被存储在深度缓冲器A中。

类似地，根据视角方向V2，从第二3D表示(310B)生成了颜色图像COLOR2B、掩模图像MASK2B和深度图像DEPTH2B。颜色图像COLOR2B被存储在颜色缓冲器B中，掩模图像MASK2B被存储在掩模缓冲器B中并且深度图像DEPTH2B被存储在深度缓冲器B中。

在一些示例中，颜色缓冲器A可以存储从该组视角方向中的视角方向投影的第一3D表示(310A)的颜色图像。掩模缓冲器A可以存储从该组视角方向中的视角方向投影的第一3D表示(310A)的掩模图像。深度缓冲器A可以存储从该组视角方向中的视角方向投影的第一3D表示(310A)的深度图像。类似地，颜色缓冲器B可以存储从该组视角方向中的视角方向投影的第二3D表示(310B)的颜色图像。掩模缓冲器B可以存储从该组视角方向中的视角方向投影的第二3D表示(310B)的掩模图像。深度缓冲器B可以存储从该组视角方向中的视角方向投影的第二3D表示(310B)的深度图像。

在一个示例中，均方误差(mean squire error,MSE)可以用于计算相同视角方向的两个图像之间的差异。例如，基于颜色图像COLOR2A和颜色图像COLOR2B计算与视角方向V2相关联的颜色MSE值；并且基于深度图像DEPTH2A和深度图像DEPTH2B计算与视角方向V2相关联的深度MSE值。在一个示例中，基于颜色MSE值计算与视角方向V2相关联的颜色PSNR值，并且基于深度MSE值计算与视角方向V2相关联的深度PSNR值。在一个示例中，计算作为与视角方向相关联的颜色PSNR值的平均值的颜色评估分数。在另一个示例中，计算作为与视角方向相关联的深度PSNR值的平均值的计算深度评估分数。

在一些示例中，第一3D表示(310A)包括多个帧，第二3D表示(310B)包括多个帧。在一个示例中，针对每对对应帧计算帧级评估分数，例如帧级颜色评估分数、帧级深度评估分数等。然后，计算作为所有帧级颜色评估分数的平均值的颜色度量，并且计算作为所有帧级深度评估分数的平均值的深度度量。

在一些示例中，通过对所有PSNR值(例如，存在多个网格帧时的所有视角方向和帧的颜色PSNR值、深度PSNR值)进行平均来计算最终评估值。最终评估分数用于评估第二3D表示(310B)的质量。

在一些相关示例中，一旦确定了视角方向的数量，视角方向(也被称为虚拟相机位置)就被固定。此外，通过对来自不同视角方向和帧(不考虑空间域和时间域的差异)的PSNR进行平均来获得最终评估分数。根据本公开的一个方面，PSNR值可能与人类视觉感知没有足够强的相关性。

本公开的一些方面提供了用来改善用于3D表示的质量评估的IBSM度量的技术。这些技术可以单独应用或者可以通过任何形式的组合应用。

根据本公开的一个方面，可以改变用于比较3D表示的虚拟相机的位置(对应于视角方向)。虚拟相机位置可以改变，而不是一直固定。

在一些实施例中，可以将虚拟相机位置的改变应用于初始虚拟相机位置。3D表示的边界球体上的初始虚拟相机位置可以通过任何方式来确定，例如使用斐波那契球格(Fibonacci sphere lattice)等。

在一些示例中，将旋转矩阵应用于初始虚拟相机位置以围绕(用于3D表示的)边界球体旋转虚拟相机位置，并确定更新的虚拟相机位置。更新的虚拟相机位置用于生成2D图像，并且该2D图像用于质量评估。在一些示例中，旋转矩阵可以由用户输入参数(例如从用户接口接收的输入参数)来指定。在一个示例中，可以基于具有旋转幅度的旋转轴来确定旋转矩阵。在另一个示例中，旋转矩阵可以从沿不同轴的三个旋转角度以预定义的顺序(即，偏航、俯仰、侧倾表示)获得。在另一个示例中，旋转矩阵可以由四元数表示来表示。

在一些实施例中，在3D表示的边界球体上均匀地采样(例如，放置、分布)虚拟相机位置。在一些实施例中，在3D表示的边界球体上随机采样(例如，放置、分布)虚拟相机位置。

在一些实施例中，虚拟相机位置可以随时间改变。在一些示例中，3D表示包括具有不同时间戳的多个帧。在一个示例中，每个帧可以具有不同的虚拟相机位置布置。在一些示例中，虚拟相机的位置可以逐帧改变。在一个示例中，虚拟相机的位置可以根据边界球体上的相机移动路径而改变。在一些示例中，虚拟相机可以在边界球体上具有(一个或多个)相同或不同的相机移动路径。在一个示例中，(一个或多个)相机移动路径可以是固定的。在另一个示例中，(一个或多个)相机移动路径由(一个或多个)用户输入(例如从用户接口接收的输入参数)来指定。

根据本公开的一个方面，可以使用自适应加权技术。例如，代替在空间(例如，虚拟相机位置、虚拟相机)和时间(例如，帧)上对评估分数(例如，PSNR值)进行平均，可以在计算处于评估的3D表示的最终评估分数时应用更自适应的加权策略。

在一些示例中，可以将每个帧的评估分数计算为来自每个虚拟相机的加权和。例如，公式(1)可以用于计算第i帧的评估分数：

其中，表示第i帧中第j个虚拟相机的评估分数。在一个示例中，评估分数可以是基于颜色缓冲器计算的颜色PSNR值或基于深度缓冲器计算的深度PSNR值或任何其他度量。表示分数/>的加权因子。F_i表示第i帧的加权评估分数。权重/>可以考虑不同的因子，包括渲染图像(投影图像)中有效像素的数量、到视点的距离等。

在一个示例中，当第一投影图像中的有效像素的第一数量大于第二投影图像中有效像素的第二数量时，向第一投影图像分配更大的权重。在一个示例中，投影图像的有效像素的数量可以通过投影图像的掩模图像中的“1”的数量来确定。

在一个示例中，使用点到投影平面的平均距离来计算到视点的距离。在一个示例中，使用投影图像的深度图像中的有效深度值的平均深度值来计算到视点的距离。

此外，最终评估分数可以是各帧分数的加权和，其可以如等式(2)所示公式化：

其中，T_i表示第i帧的加权因子，F表示在所有帧中加权的最终评估分数。权重T_i可以考虑不同的因子，包括每个帧中的虚拟相机的数量、虚拟相机位置等。在一个示例中，不同数量的虚拟相机用于不同帧的投影。具有较大数量的虚拟相机的帧(较大数量的投影2D图像)可以具有较大的权重。在另一个示例中，不同的虚拟相机位置可以生成具有不同有效像素数量或到视点的不同距离的图像。当每个帧的虚拟相机位置不同时，帧的权重可以考虑虚拟相机位置差异。

根据本公开的一个方面，可以在3D表示的质量评估中使用附加的客观度量。与PSNR相比，客观度量可以具有与人类视觉感知更好的相关性，并且可以用于评估渲染帧的质量，而不是简单地计算PSNR。

在一些实施例中，可以使用一些度量，例如结构相似性指数度量(SSIM)、视觉信息保真度(VIF)、视频多方法评估融合(VMAF)等，基于3D参考表示(参考网格、参考点云等)来确定处于评估的3D表示(例如，处于评估的点云、处于评估的网格)的质量。在一个示例中，原始网格被用作压缩网格(可能对原始网格有失真)的质量评估的3D参考表示。例如SSIM、VIF、VMAF等的度量可以用于基于原始网格确定压缩网格的质量。

在一些实施例中，一些度量，例如盲/无参考的空间域图像质量评估算法(BRISQUE)、基于失真识别的图像真实性和完整性评估(DIIVINE)等，可以使用减少参考或无参考来确定处于评估的3D表示(例如，处于评估的点云、处于评估的网格)的质量。在一个示例中，不需要原始网格来执行压缩网格的质量评估。在另一个示例中，仅需要原始网格的一部分来执行压缩网格的质量评估。

图4示出了概述根据本公开的一个实施例的过程(400)的流程图。过程(400)可以用于3D表示的质量评估。在一些实施例中，过程(400)是以软件指令的形式实现的，因此当处理电路执行软件指令时，处理电路执行过程(400)。该过程从(S401)开始并进行到(S410)。

在(S410)，响应于虚拟相机的位置改变来确定更新的虚拟相机位置。虚拟相机用于从三维(3D)空间投影到二维(2D)空间。

在一些示例中，将位置改变的旋转矩阵应用于先前虚拟相机位置以确定更新的虚拟相机位置。在一个示例中，可以经由用户接口接收旋转矩阵作为输入参数。

在(S420)，根据更新的虚拟相机位置投影参考3D表示以生成参考2D图像。参考3D表示可以是点云或网格。参考2D图像可以包括颜色图像、掩模图像和深度图像。

在(S430)，根据更新的虚拟相机位置投影处于评估的3D表示以生成评估2D图像。处于评估的3D表示可以是点云或网格。评估2D图像可以包括颜色图像、掩模图像和深度图像。

在(S440)，基于参考2D图像和评估2D图像来计算与更新的虚拟相机位置相关联的评估分数。

在一些实施例中，质量评估使用多个虚拟相机。在一些示例中，基于多个虚拟相机的位置改变来确定第一多个更新的虚拟相机位置。根据第一多个更新的虚拟相机位置来投影参考3D表示，以生成与第一多个更新的虚拟相机位置相关联的第一多个参考2D图像。根据第一多个更新的虚拟相机位置投影处于评估的3D表示以生成与第一多个更新的虚拟相机位置相关联的第一多个评估2D图像。可以基于第一多个参考2D图像和第一多个评估2D图像来计算分别与第一多个更新的虚拟相机位置相关联的第一多个评估分数。然后，可以计算第一多个评估分数的加权平均评估分数。

在一个实施例中，在3D空间中的球体上均匀采样第一多个更新的虚拟相机位置。在另一个实施例中，在3D空间中的球体上随机采样第一多个更新的虚拟相机位置。

在一些示例中，处于评估的3D表示包括具有参考3D表示中的对应帧的多个帧。第一多个更新的虚拟相机位置用于投影处于评估的3D表示的第一帧和参考3D表示的第一对应帧。在一些示例中，可以确定多个虚拟相机的第二多个更新的虚拟相机位置。第二多个更新的虚拟相机位置用于投影处于评估的3D表示的第二帧和参考3D表示的第二对应帧。在一个示例中，可以基于相机移动路径来确定多个虚拟相机的第二多个更新的虚拟相机位置。

在另一个示例中，基于第一相机移动路径确定第二多个更新的虚拟相机位置中的第一位置。第一位置与多个虚拟相机中的第一虚拟相机相关联。基于第二相机移动路径确定第二多个更新的虚拟相机位置中的第二位置。第二位置与多个虚拟相机中的第二虚拟相机相关联。

在一些示例中，为了计算第一多个评估分数的加权平均评估分数，基于处于评估的3D表示的投影来确定用于对第一多个评估分数进行加权的权重，并且基于该权重来计算加权平均评估分数。在一个示例中，基于投影在第一多个评估2D图像中的有效像素的相应数量来确定用于对第一多个评估分数进行加权的权重。在另一个示例中，基于处于评估的3D表示到对应于第一多个更新的虚拟相机位置的投影平面的相应距离来确定用于对第一多个评估分数进行加权的权重。

在一些示例中，处于评估的3D表示包括具有参考3D表示中的对应帧的多个帧，第一多个更新的虚拟相机位置用于投影处于评估的3D表示的第一帧和参考3D表示的第一对应帧，并且加权平均评估分数是第一帧的第一帧级评估分数。在一些示例中，基于第一多个更新的虚拟相机位置来确定用于对第一帧级别评估分数进行加权的第一帧权重。计算作为多个帧的加权平均分数的最终评估分数。第一帧级评估分数由最终评估分数中的第一帧权重进行加权。在一个示例中，基于第一多个更新的虚拟相机位置中的若干位置来确定第一帧权重。在另一个示例中，基于第一多个更新的虚拟相机位置的位置来确定第一帧权重。

在一个实施例中，基于峰值信噪比(PSNR)计算评估分数。在另一个实施例中，基于结构相似性指数度量(SSIM)计算评估分数。在另一个实施例中，基于视觉信息保真度(VIF)来计算评估分数。在另一个实施例中，基于视频多方法评估融合(VMAF)来计算评估分数。在另一个实施例中，基于盲/无参考的空间域图像质量评估算法(BRISQUE)来计算评估分数。在另一个实施例中，基于基于失真识别的图像真实性和完整性评估(DIIVINE)来计算评估分数。

然后，过程进行到(S499)并终止。

可适当调整过程(400)。过程(400)中的步骤可以被修改和/或省略。可以添加额外步骤。可以使用任何合适的实现顺序。

图5示出了概述根据本公开的一个实施例的过程(500)的流程图。过程(500)可用于3D表示的质量评估。在一些实施例中，过程(500)是以软件指令的形式实现的，因此当处理电路执行软件指令时，处理电路执行过程(500)。该过程从(S501)开始并进行到(S510)。

在(S510)，根据虚拟相机的多个虚拟相机位置投影参考三维(3D)表示以生成参考二维(2D)图像。虚拟相机用于从3D空间投影到2D空间。在一个示例中，多个虚拟相机位置是固定位置。在另一个示例中，多个虚拟相机位置可以逐帧改变。

在(S520)，根据虚拟相机的多个虚拟相机位置投影处于评估的3D表示以生成评估2D图像。

在(S530)，可以基于参考2D图像和评估2D图像来计算与虚拟相机相关联的评估分数。

在(S540)，计算处于评估的3D表示的评估分数的加权平均评估分数。基于处于评估的3D表示的投影来确定用于对评估分数进行加权的权重。

在一些示例中，基于投影在评估2D图像中的有效像素的相应数量来确定用于对评估分数进行加权的权重。在一些示例中，基于处于评估的3D表示到对应于多个虚拟相机位置的投影平面的相应距离来确定用于对评估分数进行加权的权重。

在一些示例中，处于评估的3D表示包括具有参考3D表示中的对应帧的多个帧。加权平均评估分数是第一帧的第一帧级评估分数。基于多个虚拟相机位置来确定用于对第一帧级评估分数进行加权的第一帧权重。计算作为多个帧的加权平均分数的最终评估分数。最终评估分数包括由第一帧权重进行加权的第一帧级评估分数。在一个示例中，基于多个虚拟相机位置中的若干位置来确定第一帧权重。在另一个示例中，基于多个虚拟相机位置的位置来确定第一帧权重。

在一个实施例中，基于峰值信噪比(PSNR)计算评估分数。在另一个实施例中，基于结构相似性指数度量(SSIM)来计算评估分数。在另一个实施例中，基于VIF计算评估分数。在另一个实施例中，基于视频多方法评估融合(VMAF)来计算评估分数。在另一个实施例中，基于盲/无参考的空间域图像质量评估算法(BRISQUE)来计算评估分数。在另一个实施例中，基于基于失真识别的图像真实性和完整性评估(DIIVINE)来计算评估分数。

然后，过程进行到(S599)并终止。

可适当调整过程(500)。过程(500)中的步骤可以被修改和/或省略。可以添加额外步骤。可以使用任何合适的实现顺序。

图6示出了概述根据本公开的一个实施例的过程(600)的流程图。过程(600)可以用于3D表示的质量评估。在一些实施例中，过程(600)是以软件指令的形式实现的，因此当处理电路执行软件指令时，处理电路执行过程(600)。该过程从(S601)开始并进行到(S610)。

在(S610)，根据用于从三维(3D)空间投影到二维(2D)空间的虚拟相机的虚拟相机位置，投影处于评估的3D表示以生成评估2D图像。

在(S620)，基于评估2D图像计算评估分数。在一个实施例中，基于结构相似性指数度量(SSIM)来计算评估分数。在另一个实施例中，基于视觉信息保真度(VIF)来计算评估分数。在另一个实施例中，基于视频多方法评估融合(VMAF)来计算评估分数。在另一个实施例中，基于盲/无参考的空间域图像质量评估算法(BRISQUE)来计算评估分数。在另一个实施例中，基于基于失真识别的图像真实性和完整性评估(DIIVINE)来计算评估分数。

在一些示例中，当度量需要参考时，可以根据虚拟相机的虚拟相机位置投影3D参考表示以生成参考2D图像。

然后，过程进行到(S699)并终止。

可适当调整过程(600)。过程(600)中的步骤可以被修改和/或省略。可以添加额外步骤。可以使用任何合适的实现顺序。

上述技术可以使用计算机可读指令实现为计算机软件，并且物理地存储在一个或多个计算机可读介质中。例如，图7示出了适合于实现所公开主题的某些实施例的计算机系统(700)。

可以使用任何合适的机器代码或计算机语言对计算机软件进行编码，这些机器代码或计算机语言可以进行汇编、编译、链接或类似机制，以创建包含指令的代码，这些指令可以由一个或多个计算机中央处理单元(CPU)、图形处理单元(GPU)等直接执行，或通过解释、微代码执行等执行。

指令可以在各种类型的计算机或其组件上执行，包括例如个人计算机、平板电脑、服务器、智能手机、游戏设备、物联网设备等。

图7中所示的计算机系统(700)的组件本质上是示例性的，并不旨在对实现本公开的实施例的计算机软件的使用范围或功能提出任何限制。组件的配置也不应被解释为具有与计算机系统(700)的示例性实施例中所例示的组件的任何一个或组合相关的任何依赖性或要求。

计算机系统(700)可以包括某些人机接口输入设备。这样的人机接口输入设备可以通过例如触觉输入(例如：击键、滑动、数据手套移动)、音频输入(例如，声音、拍手)、视觉输入(例如手势)、嗅觉输入(未示出)来响应一个或多个人类用户的输入。人机接口设备还可以用于捕获某些不一定与人类的有意识输入直接相关的介质，例如音频(例如：语音、音乐、环境声音)、图像(例如：扫描图像、从静止图像相机获得的摄影图像)、视频(例如二维视频、包括立体视频的三维视频)。

输入人机接口设备可以包括以下一个或多个(每个仅示出其中一个)：键盘(701)、鼠标(702)、触摸板(703)、触摸屏(710)、数据手套(未示出)、操纵杆(705)、麦克风(706)、扫描仪(707)、相机(708)。

计算机系统(700)还可以包括某些人机接口输出设备。这样的人机接口输出设备可以通过例如触觉输出、声音、光和气味/味道来刺激一个或多个人类用户的感觉。这种人机接口输出设备可以包括触觉输出设备(例如，触摸屏(710)、数据手套(未示出)或操纵杆(705)的触觉反馈，但也可以有不用作输入设备的触觉反馈设备)，音频输出设备(例如：扬声器(709)、耳机(未示出))，视觉输出设备(例如包括CRT屏幕、LCD屏幕、等离子屏幕、OLED屏幕的屏幕(710)，每个屏幕都具有或不具有触摸屏输入能力，每个屏幕都具有或不具有触觉反馈能力——其中一些屏幕可以通过立体照相输出、虚拟现实眼镜(未示出)、全息显示器和烟雾罐(未示出)等方式输出二维视觉输出或三维以上输出)和打印机(未示出)。

计算机系统(700)还可以包括人类可访问的存储设备及与其相关联的介质，例如包括CD/DVD ROM/RW(720)和CD/DVD等介质(721)的光学介质、拇指驱动器(722)、可移动硬盘驱动器或固态驱动器(723)、诸如磁带和软盘的传统磁介质(未示出)、诸如安全加密狗的基于专用ROM/ASIC/PLD的设备(未示出)等。

本领域技术人员还应理解，结合当前公开的主题使用的术语“计算机可读介质”不包含传输介质、载波或其他瞬态信号。

计算机系统(700)还可以包括到一个或多个通信网络(755)的接口(754)。网络可以例如是无线网络、有线网络、光纤网络。网络还可以是局域网、广域网、城域网、车辆和工业网络、实时网络、延迟容忍网络等。网络的示例包括诸如以太网之类的局域网，无线LAN，包括GSM、3G、4G、5G、LTE等的蜂窝网络，包括有线电视、卫星电视和地面广播电视的电视有线或无线广域数字网络，包括CAN总线的车辆和工业网络等。某些网络通常需要连接到某些通用数据端口或外围总线(749)的外部网络接口适配器(例如，计算机系统(700)的USB端口)；其他网络通常通过连接到如下所述的系统总线来集成到计算机系统(700)的内核中(例如，连接到PC计算机系统的以太网接口或连接到智能手机计算机系统的蜂窝网络接口)。计算机系统(700)可以使用这些网络中的任何一个网络与其他实体通信。这种通信可以是仅单向接收的(例如，广播电视)、仅单向发送的(例如，连接到某些CAN总线设备的CAN总线)、或双向的，例如使用局域或广域数字网络连接到其他计算机系统。如上所述，可以在那些网络和网络接口中的每一个上使用特定协议和协议栈。

上述人机接口设备、人类可访问存储设备和网络接口可以连接到计算机系统(700)的内核(740)。

内核(740)可以包括一个或多个中央处理单元(CPU)(741)、图形处理单元(GPU)(742)、现场可编程门阵列(FPGA)形式的专用可编程处理单元(743)、特定任务的硬件加速器(744)、图形适配器(750)等。这些设备连同只读存储器(ROM)(745)、随机存取存储器(746)、例如内部非用户可访问硬盘驱动器、SSD等的内部大容量存储器(747)可以通过系统总线(748)连接。在一些计算机系统中，可以以一个或多个物理插头的形式访问系统总线(748)以使通过额外的CPU、GPU等的扩展成为可能。外围设备可以直接连接到内核的系统总线(748)，或者通过外围总线(749)连接到内核的系统总线。在一个示例中，屏幕(710)可以连接到图形适配器(750)。外围总线的架构包括PCI、USB等。

CPU(741)、GPU(742)、FPGA(743)和加速器(744)可以执行组合起来可以构成上述计算机代码的特定指令。该计算机代码可以被存储在ROM(745)或RAM(746)中。过渡数据也可以被存储在RAM(746)中，而永久数据可以例如被存储在内部大容量存储器(747)中。可以通过使用高速缓冲存储器来使对任何存储器设备的快速存储和检索成为可能，该高速缓冲存储器可以与一个或多个CPU(741)、GPU(742)、大容量存储器(747)、ROM(745)、RAM(746)等紧密关联。

计算机可读介质上可以具有用于执行各种计算机实现的操作的计算机代码。介质和计算机代码可以是为了本公开的目的而专门设计和构造的介质和计算机代码，或者介质和计算机代码可以是计算机软件领域的技术人员公知和可用的类型。

作为示例而非限制，具有架构的计算机系统(700)，特别是内核(740)，可以通过处理器(包括CPU、GPU、FPGA、加速器等)执行一个或多个有形的计算机可读介质中体现的软件来提供功能。这样的计算机可读介质可以是与如上所介绍的用户可访问的大容量存储器相关联的介质，以及具有非暂时性的内核(740)的特定存储器，例如内核内部大容量存储(747)或ROM(745)。实现本公开的各种实施例的软件可以被存储在这样的设备中并且由内核(740)执行。根据特定需要，计算机可读介质可以包括一个或多个存储器设备或芯片。软件可以使内核(740)，特别是其中的处理器(包括CPU、GPU、FPGA等)执行本文描述的特定过程或特定过程的特定部分，包括定义存储在RAM(746)中的数据结构以及根据由软件定义的过程修改这样的数据结构。另外或作为替代，计算机系统可以因为硬连线或以其他方式体现在电路(例如：加速器(744))中的逻辑来提供功能，该硬连线或其他方式可以代替软件或与软件一起操作以执行本文所述的特定过程或特定过程的特定部分。在适当时，提及软件的部分可以包含逻辑，反之亦然。在适当时，提及计算机可读介质的部分可以包含存储用于执行的软件的电路(例如集成电路(IC))、体现用于执行的逻辑的电路、或两者都包括。本公开包含硬件和软件的任何适当组合。

虽然本公开描述了几个示例性实施例，但存在落入本公开范围内的修改、置换和各种替代等效物。因此将理解本领域技术人员将能够设计出许多系统和方法，这些系统和方法虽然在本文中未明确示出或描述，但体现了本公开的原理，因此落入了本公开的精神和范围内。

Claims

1.一种用于质量评估的方法，包括：

响应于用于从三维(3D)空间投影到二维(2D)空间的虚拟相机的位置改变来确定更新的虚拟相机位置；

根据所述更新的虚拟相机位置投影参考3D表示以生成参考2D图像；

根据所述更新的虚拟相机位置投影处于评估的3D表示以生成评估2D图像；和

基于所述参考2D图像和所述评估2D图像来计算与所述更新的虚拟相机位置相关联的评估分数。

2.根据权利要求1所述的方法，其中，所述确定所述更新的虚拟相机位置还包括：

将所述位置改变的旋转矩阵应用于先前虚拟相机位置以确定所述更新的虚拟相机位置。

3.根据权利要求2所述的方法，还包括：

经由用户接口接收所述旋转矩阵作为输入参数。

4.根据权利要求1所述的方法，还包括：

基于多个虚拟相机的位置改变来确定第一多个更新的虚拟相机位置；

根据所述第一多个更新的虚拟相机位置投影所述参考3D表示，以生成与所述第一多个更新的虚拟相机位置相关联的第一多个参考2D图像；

根据所述第一多个更新的虚拟相机位置投影所述处于评估的3D表示，以生成与所述第一多个更新的虚拟相机位置相关联的第一多个评估2D图像；

基于所述第一多个参考2D图像和所述第一多个评估2D图像计算分别与所述第一多个更新的虚拟相机位置相关联的第一多个评估分数；和

计算所述第一多个评估分数的加权平均评估分数。

5.根据权利要求4所述的方法，其中，所述第一多个更新的虚拟相机位置在所述3D空间中的球体上被均匀采样，或者在所述3D空间中的所述球体上被随机采样。

6.根据权利要求4所述的方法，其中，所述处于评估的3D表示包括具有所述参考3D表示中的对应帧的多个帧，所述第一多个更新的虚拟相机位置用于投影所述处于评估的3D表示的第一帧和所述参考3D表示的第一对应帧，并且所述方法还包括：

确定所述多个虚拟相机的第二多个更新的虚拟相机位置，所述第二多个更新的虚拟相机位置用于投影所述处于评估的3D表示的第二帧和所述参考3D表示的第二对应帧。

7.根据权利要求6所述的方法，还包括：

基于相机移动路径来确定所述多个虚拟相机的所述第二多个更新的虚拟相机位置。

8.根据权利要求6所述的方法，还包括：

基于第一相机移动路径来确定所述第二多个更新的虚拟相机位置中的第一位置，所述第一位置与所述多个虚拟相机中的第一虚拟相机相关联；和

基于第二相机移动路径来确定所述第二多个更新的虚拟相机位置中的第二位置，所述第二位置与所述多个虚拟相机中的第二虚拟相机相关联。

9.根据权利要求4所述的方法，其中，所述计算所述第一多个评估分数的所述加权平均评估分数还包括：

基于所述处于评估的3D表示的所述投影来确定用于对所述第一多个评估分数进行加权的权重；和

基于所述权重计算所述加权平均评估分数。

10.根据权利要求9所述的方法，还包括：

基于以下至少一项来确定用于对所述第一多个评估分数进行加权的所述权重：

被投影在所述第一多个评估2D图像中的有效像素的相应数量；和

所述处于评估的3D表示到对应于所述第一多个更新的虚拟相机位

置的投影平面的相应距离。

11.根据权利要求9所述的方法，其中，所述处于评估的3D表示包括具有所述参考3D表示中的对应帧的多个帧，所述第一多个更新的虚拟相机位置用于投影所述处于评估的3D表示的第一帧和所述参考3D表示的第一对应帧，所述加权平均评估分数是所述第一帧的第一帧级评估分数，并且所述方法还包括：

基于所述第一多个更新的虚拟相机位置来确定用于对所述第一帧级评估分数进行加权的第一帧权重；和

计算作为所述多个帧的加权平均分数的最终评估分数，所述第一帧级评估分数由所述最终评估分数中的所述第一帧权重进行加权。

12.根据权利要求11所述的方法，其中，所述确定所述第一帧权重包括：

基于以下至少一项来确定所述第一帧权重：

所述第一多个更新的虚拟相机位置中的若干位置；和

所述第一多个更新的虚拟相机位置的位置。

13.根据权利要求1所述的方法，其中，所述评估分数包括以下至少一项：峰值信噪比(PSNR)、结构相似性指数度量(SSIM)、视觉信息保真度(VIF)、视频多方法评估融合(VMAF)、盲/无参考的空间域图像质量评估算法(BRISQUE)、以及基于失真识别的图像真实性和完整性评估(DIIVINE)。

14.一种用于质量评估的装置，包括处理电路，所述处理电路被配置为：

15.根据权利要求14所述的装置，其中，所述处理电路被配置为：

16.根据权利要求15所述的装置，其中，所述处理电路被配置为：

经由用户接口接收所述旋转矩阵作为输入参数。

17.根据权利要求14所述的装置，其中，所述处理电路被配置为：

计算所述第一多个评估分数的加权平均评估分数。

18.根据权利要求17所述的装置，其中，所述第一多个更新的虚拟相机位置在所述3D空间中的球体上被均匀采样，或者在所述3D空间中的所述球体上被随机采样。

19.根据权利要求17所述的装置，其中，所述处于评估的3D表示包括具有所述参考3D表示中的对应帧的多个帧，所述第一多个更新的虚拟相机位置用于投影所述处于评估的3D表示的第一帧和所述参考3D表示的第一对应帧，并且所述处理电路被配置为：

20.根据权利要求19所述的装置，其中，所述处理电路被配置为：