CN111726598A

CN111726598A - 图像处理方法和装置

Info

Publication number: CN111726598A
Application number: CN201911054969.6A
Authority: CN
Inventors: 王彬; 虞露; 邸佩云; 方华猛
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd; Zhejiang University ZJU
Priority date: 2019-03-19
Filing date: 2019-10-31
Publication date: 2020-09-29
Anticipated expiration: 2039-10-31
Also published as: CN111726598B

Abstract

本申请提供一种图像处理方法和装置，在解码端获取待观测场景对应的至少两个传输码流，从传输码流中获得至少两个解码图像，解码图像分别来自不同的传输码流，解码图像中包括至少一个基础视点图像和至少一个有效信息子图，有效信息子图为从非基础视点图像中获得的子图，有效信息子图包含非基础视点图像与基础视点图像不相似的像素，基础和非基础视点图像对应的视点不同，最后根据有效信息子图和基础视点图像，以及合成参数，合成支持用户观看的视点图像，其中，通过至少一个基础视点图像和至少一个有效信息子图合成目标视点图像，数据量小，处理流程简单，而且通过有效信息子图去除了视点间冗余信息，在不丢失大量有效信息的同时，提高解码效率。

Description

图像处理方法和装置

技术领域

本申请涉及视频编解码技术领域，尤其涉及一种图像处理方法和装置。

背景技术

随着视频多媒体技术的发展，人们不断追求更高沉浸感和自由度的视觉体验，全向视频得到了很大的关注和研究。ISO/IEC 23090-2标准规范又称为全向媒体格式(omnidirectional media format，OMAF)标准规范，该规范定义了一种媒体应用格式，可以在应用中实现全向媒体的呈现，全向媒体主要是指全向视频(360°视频)和相关音频。OMAF规范首先制定了可以用于将球面视频转换为二维视频的投影方法的列表，其次是如何使用ISO基本媒体文件格式(ISO base media file format，ISOBMFF)存储全向媒体和该媒体相关联的元数据，以及如何在流媒体系统中封装全向媒体的数据和传输全向媒体的数据。

传统OMAF制定的标准中，目标定义新的媒体应用格式，可以在应用中实现相比于全向媒体更高自由度的媒体呈现。三自由度加(3degree of freedom plus，3DoF+)视频就是典型的一种视频媒体呈现。3DoF+视频指的是用户在三维空间的一定的范围内观看全向视频，获得全向视频无法提供的交互感和运动视差，形成更强烈的视觉沉浸感。为了达到这样的视觉沉浸感，需要获取多个视点的纹理信息和深度信息，根据对应视点参数和格式信息，利用视点变换、视图融合、空洞填充等计算机视觉技术，合成出虚拟视点图像。示例性的，如图1所示，通过多视点图像(纹理+深度)、用户姿势跟踪、视点合成渲染合成用户当前观看的视点图像。而这对视频信息的编码效率复杂度、传输效果都提出了更大的挑战。

现有对视频信息的编解码过程中，通过分析视点间的视频信息发现：视点间信息存在巨大的冗余，如果分别传输多路的全向视频，编解码效率会很低。

发明内容

本申请提供一种图像处理方法和装置，以提高视频编解码效率。

本申请第一方面提供一种图像处理方法，在解码端获取待观测场景对应的至少两个传输码流，从上述至少两个传输码流中获得至少两个解码图像，其中，该至少两个解码图像分别来自不同的传输码流，该至少两个解码图像中包括至少一个基础视点图像和至少一个有效信息子图，该有效信息子图从非基础视点图像中获得，该非基础视点图像的有效信息子图包含非基础视点图像与基础视点图像不相似的像素，基础视点图像和非基础视点图像对应的视点不同，基础视点图像对应一个基础视点，最后根据上述至少一个有效信息子图和上述至少一个基础视点图像，以及上述至少一个有效信息子图对应的合成参数和上述至少一个基础视点图像对应的合成参数，合成目标视点图像，这里，目标视点可以根据用户观测位置确定，从而，合成支持用户观看的视点图像，其中，通过至少一个基础视点图像和至少一个有效信息子图合成目标视点图像，数据量小，处理流程简单，而且通过有效信息子图去除了视点间冗余信息，在不丢失大量有效信息的同时，提高解码效率。

一种可能设计，在所述根据所述至少一个有效信息子图和所述至少一个基础视点图像，以及所述至少一个有效信息子图对应的合成参数和所述至少一个基础视点图像对应的合成参数，合成目标视点图像之前，还包括：

从所述至少两个传输码流中获得所述至少一个有效信息子图对应的合成参数和所述至少一个基础视点图像对应的合成参数。

这里，从传输码流中获得上述至少一个有效信息子图对应的合成参数和上述至少一个基础视点图像对应的合成参数，以便后续直接根据获得的参数合成目标视点图像，进一步提高解码效率。

一种可能设计，在所述从所述至少两个传输码流中获得至少两个解码图像之后，还包括：

确定所述至少两个解码图像中解码图像的合成参数中是否包含子图像参数，所述子图像参数包括视角域和图像中心偏移量中至少一个，其中，所述视角域用于指示所述非基础视点图像的有效信息子图在所述非基础视点图像中的大小，所述图像中心偏移量用于指示所述非基础视点图像的有效信息子图在所述非基础视点图像中的位置；

若所述解码图像的合成参数中包含所述子图像参数，则判定所述解码图像为所述非基础视点图像的有效信息子图；

若所述解码图像的合成参数中不包含所述子图像参数，则判定所述解码图像为所述基础视点图像。

其中，大小可以是角度范围。

示例性的，解码端解析每组图像的合成参数，确定图像的合成参数中是否包含子图像参数，若包含，则判定图像为非基础视点图像的子图像，否则，判定图像为基础视点图像，处理过程简单，处理结果准确，保证后续处理正常进行。

一种可能设计，所述基础视点图像包括深度图和纹理图中至少一个，所述非基础视点图像的有效信息子图包括深度图和纹理图中至少一个；所述基础视点图像对应的合成参数包括视点参数、图像格式、图像分辨率和深度图格式中至少一个，所述非基础视点图像的有效信息子图对应的合成参数包括视角域、图像中心偏移量、视点参数、图像格式、图像分辨率和深度图格式中至少一个。

这里，上述纹理图也可以称为彩色图或者色彩图。每一基础视点图像和非基础视点图像的有效信息子图，均只有一组合成参数，解码端根据多组图像，以及每组图像对应的合成参数，合成目标视点图像，有效降低处理复杂度。

本申请第二方面提供另一种图像处理方法，在编码端根据至少两个视点图像确定基础视点图像，其中，所述至少两个视点图像对应同一场景，且所述至少两个视点图像对应的视点不同；然后根据上述基础视点图像和上述至少两个视点图像中的非基础视点图像，从非基础视点图像中获得非基础视点图像的有效信息子图，其中，上述非基础视点图像的有效信息子图包含非基础视点图像与基础视点图像不相似的像素，所述基础视点图像和非基础视点图像对应的视点不同，所述基础视点图像对应一个基础视点；对上述基础视点图像和非基础视点图像的有效信息子图进行编码，从而，提供不同场景的编码码流，其中仅对基础视点图像和非基础视点图像的有效信息子图进行编码，数据量小，处理流程简单，而且通过有效信息子图实现对视点间冗余信息的有效去除，在不丢失大量有效信息的同时，提高编码效率。

一种可能设计，所述根据所述基础视点图像和所述至少两个视点图像中的非基础视点图像，从所述非基础视点图像中获得非基础视点图像的有效信息子图，包括：

判断预测图像的像素和所述非基础视点图像的像素是否满足像素相似条件，其中，所述预测图像根据所述基础视点图像生成，所述预测图像为所述非基础视点图像的预测图像；

根据判断结果，从所述非基础视点图像中获得所述非基础视点图像的有效信息子图，其中，所述非基础视点图像的有效信息子图包含所述非基础视点图像与所述预测图像不相似的像素。

这里，确定预测图像与非基础视点图像中的相似像素，根据该相似像素对非基础视点图像进行有效信息子图提取，去除视点间的冗余信息。

一种可能设计，所述根据判断结果，从所述非基础视点图像中获得所述非基础视点图像的有效信息子图，包括：

若所述预测图像的像素和所述非基础视点图像的像素满足所述像素相似条件，则将所述非基础视点图像的相应像素的有效权重设置为第一数值；

若所述预测图像的像素和所述非基础视点图像的像素不满足所述像素相似条件，则将所述非基础视点图像的相应像素的有效权重设置为第二数值，所述第二数值与所述第一数值不同；

根据所述非基础视点图像的所有像素的有效权重，从所述非基础视点图像中获得包括有效权重设置为第二数值的像素的所述非基础视点图像的有效信息子图。

示例性的，预测图像和非基础视点图像逐像素进行像素判决，若判定满足像素相似条件，不对像素擦除，只是将该像素的有效权重重置为第一数值，例如0，反之，置为第二数值，例如1。根据像素的有效权重对所有非基础视点图像做子图截取，截取出相应的有效信息子图，使得传输图像像素率降低，带宽得到下降。

一种可能设计，所述基础视点图像包括深度图和纹理图中至少一个，所述非基础视点图像的有效信息子图包括深度图和纹理图中至少一个；

在所述对所述基础视点图像和所述非基础视点图像的有效信息子图进行编码之前，还包括：

获得所述基础视点图像对应的合成参数和所述非基础视点图像的有效信息子图对应的合成参数，其中，所述基础视点图像对应的合成参数包括视点参数、图像格式、图像分辨率和深度图格式中至少一个，所述非基础视点图像的有效信息子图对应的合成参数包括视角域、图像中心偏移量、视点参数、图像格式、图像分辨率和深度图格式中至少一个；

所述对所述基础视点图像和所述非基础视点图像的有效信息子图进行编码，包括：

对所述基础视点图像和所述非基础视点图像的有效信息子图，以及所述基础视点图像对应的合成参数和所述非基础视点图像的有效信息子图对应的合成参数进行编码。

这里，每一基础视点图像和有效信息子图，均只有一组合成参数，将相应的图像和合成参数进行编码，在不降低合成质量的同时，降低处理复杂度。

一种可能设计，在所述从所述非基础视点图像中获得所述非基础视点图像的有效信息子图之后，还包括：

将所述非基础视点图像的有效信息子图和所述基础视点图像作为备选参考图像，根据所述备选参考图像生成新的非基础视点图像的新的预测图像；

判断所述新的预测图像的像素和所述新的非基础视点图像的像素是否满足所述像素相似条件；

根据判断结果，从所述新的非基础视点图像中获得有效信息子图。

示例性的，可以将基础视点图和截取的非基础视点图像的有效信息子图作为备选参考图像，根据该备选参考图像生成新的非基础视点图像的新的预测图像，对新的非基础视点图像进行有效信息子图截取，并且在截取出一张有效子图后，将有效子图加入到上述备选参考图像中，再根据该备选参考图像生成另外非基础视点图像的预测图像，对另外非基础视点图像进行有效信息子图截取，例如根据该备选参考图像生成非基础视点图像A的预测图像，利用非基础视点图像A的预测图像，对非基础视点图像A进行有效信息子图截取，重复上述操作，可以实现对视点间的视点冗余信息的有效去除。

本申请第三方面提供一种图像处理装置，包括：

获取模块，用于获取待观测场景对应的至少两个传输码流；

第一获得模块，用于从所述至少两个传输码流中获得至少两个解码图像，其中，所述至少两个解码图像分别来自不同的传输码流，所述至少两个解码图像中包括至少一个基础视点图像和至少一个有效信息子图，所述至少一个有效信息子图为从非基础视点图像中获得的子图，所述非基础视点图像的有效信息子图包含所述非基础视点图像与所述基础视点图像不相似的像素，所述基础视点图像和所述非基础视点图像对应的视点不同，所述基础视点图像对应一个基础视点；

第一处理模块，用于根据所述至少一个有效信息子图和所述至少一个基础视点图像，以及所述至少一个有效信息子图对应的合成参数和所述至少一个基础视点图像对应的合成参数，合成目标视点图像。

一种可能设计，上述装置，还包括：

第二获得模块，用于在所述第一处理模块根据所述至少一个有效信息子图和所述至少一个基础视点图像，以及所述至少一个有效信息子图对应的合成参数和所述至少一个基础视点图像对应的合成参数，合成目标视点图像之前，从所述至少两个传输码流中获得所述至少一个有效信息子图对应的合成参数和所述至少一个基础视点图像对应的合成参数。

一种可能设计，上述装置，还包括：

第一确定模块，用于在所述第一获得模块从所述至少两个传输码流中获得至少两个解码图像之后，确定所述至少两个解码图像中解码图像的合成参数中是否包含子图像参数，所述子图像参数包括视角域和图像中心偏移量中至少一个，其中，所述视角域用于指示所述非基础视点图像的有效信息子图在所述非基础视点图像中的大小，所述图像中心偏移量用于指示所述非基础视点图像的有效信息子图在所述非基础视点图像中的位置；

本申请第四方面提供另一种图像处理装置，包括：

第二确定模块，用于根据至少两个视点图像确定基础视点图像，其中，所述至少两个视点图像对应同一场景，且所述至少两个视点图像对应的视点不同；

第三获得模块，用于根据所述基础视点图像和所述至少两个视点图像中的非基础视点图像，从所述非基础视点图像中获得所述非基础视点图像的有效信息子图，其中，所述非基础视点图像的有效信息子图包含所述非基础视点图像与所述基础视点图像不相似的像素，所述基础视点图像和所述非基础视点图像对应的视点不同，所述基础视点图像对应一个基础视点；

第二处理模块，用于对所述基础视点图像和所述非基础视点图像的有效信息子图进行编码。

一种可能设计，所述第三获得模块具体用于：

一种可能设计，所述第三获得模块根据判断结果，从所述非基础视点图像中获得所述非基础视点图像的有效信息子图，包括：

所述装置还包括：第四获得模块，用于在所述第二处理模块对所述基础视点图像和所述非基础视点图像的有效信息子图进行编码之前，获得所述基础视点图像对应的合成参数和所述非基础视点图像的有效信息子图对应的合成参数，其中，所述基础视点图像对应的合成参数包括视点参数、图像格式、图像分辨率和深度图格式中至少一个，所述非基础视点图像的有效信息子图对应的合成参数包括视角域、图像中心偏移量、视点参数、图像格式、图像分辨率和深度图格式中至少一个；

所述第二处理模块具体用于：

一种可能设计，所述第三获得模块，还用于在所述从所述非基础视点图像中获得所述非基础视点图像的有效信息子图之后，将所述非基础视点图像的有效信息子图和所述基础视点图像作为备选参考图像，根据所述备选参考图像生成新的非基础视点图像的新的预测图像；

第五方面，本申请提供一种计算设备，该计算设备包括处理器和存储器。该存储器存储计算机指令；该处理器执行该存储器存储的计算机指令，使得该计算设备执行上述第一方面或者第一方面的各种可能设计提供的方法，使得该计算设备部署上述第三方面或者第三方面的各种可能设计提供该图像处理装置。

第六方面，本申请提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机指令，该计算机指令指示该计算设备执行上述第一方面或者第一方面的各种可能设计提供的方法，或者该计算机指令指示该计算设备部署上述第三方面或者第三方面的各种可能设计提供该图像处理装置。

第七方面，本申请提供一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算设备执行上述第一方面或者第一方面的各种可能设计提供的方法，使得该计算设备部署上述第三方面或者第三方面的各种可能设计提供该图像处理装置。

第八方面，本申请提供一种计算设备，该计算设备包括处理器和存储器。该存储器存储计算机指令；该处理器执行该存储器存储的计算机指令，使得该计算设备执行上述第二方面或者第二方面的各种可能设计提供的方法，使得该计算设备部署上述第四方面或者第四方面的各种可能设计提供该图像处理装置。

第九方面，本申请提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机指令，该计算机指令指示该计算设备执行上述第二方面或者第二方面的各种可能设计提供的方法，或者该计算机指令指示该计算设备部署上述第四方面或者第四方面的各种可能设计提供该图像处理装置。

第十方面，本申请提供一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算设备执行上述第二方面或者第二方面的各种可能设计提供的方法，使得该计算设备部署上述第四方面或者第四方面的各种可能设计提供该图像处理装置。

第十一方面，提供了一种处理媒体数据的方法，该方法可以包括：获取第一图像，所述第一图像对应第一视点；

获取第二图像的子图像，所述第二图像对应第二视点；

根据所述第一图像和所述第二图像的子图像，获取所述第三图像的预测图像，所述第三图像对应第三视点，所述第一视点、所述第二视点和所述第三视点互为不同视点，所述第一图像、所述第二图像和所述第三图像为对应同一场景的图像。

第十二方面，提供了一种处理媒体数据的方法，该方法可以包括：从第一图像、第二图像以及第三图像中确定出第一图像，所述第一图像对应第一视点；

根据所述第一图像和所述第三图像，确定所述第二图像的子图像，所述第二图像的子图像结合所述第一图像获取所述第三图像的预测图像，所述第二图像对应第二视点，所述第三图像对应第三视点，所述第一视点、所述第二视点和所述第三视点互为不同视点，所述第一图像、所述第二图像和所述第三图像为对应同一场景的图像。

第十三方面，提供了一种客户端，该客户端可以包括：获取模块，用于获取第一图像，所述第一图像对应第一视点；获取第二图像的子图像，所述第二图像对应第二视点；

预测模块，用于根据所述第一图像和所述第二图像的子图像，获取所述第三图像的预测图像，所述第三图像对应第三视点，所述第一视点、所述第二视点和所述第三视点互为不同视点，所述第一图像、所述第二图像和所述第三图像为对应同一场景的图像。

上述各个设备的全部或者部分模块也可以为软件模块，由处理器读取来执行相关的方法，也可以为芯片中的单元，在此不做限定。

第十四方面，提供了一种服务器，该服务器可以包括：第一确定模块，用于从第一图像、第二图像以及第三图像中确定出第一图像，所述第一图像对应第一视点；

第二确定模块，用于根据所述第一图像和所述第三图像，确定所述第二图像的子图像，所述第二图像的子图像结合所述第一图像获取所述第三图像的预测图像，所述第二图像对应第二视点，所述第三图像对应第三视点，所述第一视点、所述第二视点和所述第三视点互为不同视点，所述第一图像、所述第二图像和所述第三图像为对应同一场景的图像。

第十五方面，提供一种客户端，可以包括：相互耦合的非易失性存储器和处理器；其中，所述处理器用于调用存储在所述存储器中的程序代码以执行第十一方面或第十二方面或第十三方面中的任意一种实现方式中的方法的部分或全部步骤。

第十六方面，提供一种服务器，可以包括：相互耦合的非易失性存储器和处理器；其中，所述处理器用于调用存储在所述存储器中的程序代码以执行第十四方面中的任意一种实现方式中的方法的部分或全部步骤。

第十七方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储了程序代码，其中，所述程序代码可以包括用于执行第十一方面、第十二方面、第十三方面以及第十四方面中的任意一种实现方式中的方法的部分或全部步骤的指令。

第十八方面，提供一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行第十一方面、第十二方面、第十三方面以及第十四方面中的任意一种实现方式中的方法的部分或全部步骤的指令。

附图说明

图1为本申请实施例提供的一种视点合成的示意图；

图2为本申请实施例提供的一种应用场景的示意图；

图3为本申请实施例提供的另一种应用场景的示意图；

图4为本申请实施例提供的视角变化对应的视角示意图；

图5为本申请实施例提供的视角的空间关系的另一示意图；

图6为本申请实施例提供的一种图像处理系统的架构示意图；

图7为本申请实施例提供的一种3DoF+视频的Evidence方案的示意图；

图8为本申请实施例提供的Evidence方案的解码端方案示意图；

图9为本申请实施例提供的多视点合成示意图；

图10为本申请实施例提供的一种图像处理方法的流程示意图；

图11为本申请实施例提供的另一种图像处理方法的流程示意图；

图12为本申请实施例提供的有效信息截取示意图；

图13为本申请提供的一种图像处理装置的结构示意图；

图14为本申请提供的另一种图像处理装置的结构示意图；

图15为本申请提供的一种计算设备的基本硬件架构示意图；

图16为本申请提供的另一种计算设备的基本硬件架构示意图；

图17为本申请提供的一种有效信息决策的示意图。

具体实施方式

本申请实施例描述的网络架构以及业务场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着网络架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

为了更好地理解本申请实施例的处理媒体数据的方法，下面先对媒体数据相关的一些基本概念进行简要的介绍。

全景视频：又称360度全景视频，或者全向视频，由一系列的全景图片组成，全景图片内容覆盖三维空间中整个球体表面。随着虚拟现实(Virtual reality，VR)技术的快速发展，全景视频得到了越来越广泛的应用，基于360度全景视频的VR技术可以创建一种模拟环境，为用户带来交互式的三维动态视觉体验。全景视频由一系列全景图像组成，这些全景图像可以由计算机渲染产生，也可以通过拼接算法将多个相机分别从多个不同角度拍摄的视频图像拼接而成。一般来说，在观看全景视频时，用户在每个时刻观看到的图像内容仅占整个全景图像的一小部分，为了节省传输带宽，在通过远端服务器为用户提供全景图像时，可以只为用户传输每个时刻观看到的内容。

轨迹(track)：是指一系列有时间属性的按照ISO基本媒体文件格式(ISO basemedia file format，ISOBMFF)的封装方式的样本。比如视频track，视频样本是通过将视频编码器编码每一帧后产生的码流按照ISOBMFF的规范封装后得到的。

轨迹在标准ISO/IEC 14496-12中的定义为：“timed sequence of relatedsamples(q.v.)in an ISO base media file”，该定义的中文翻译为“ISO媒体文件中相关样本的时间属性序列”。

对于媒体数据来说，一个track就是个图像或者音频样本序列；对于提示轨迹，一个轨迹对应一个流频道(For media data,a track corresponds to a sequence ofimages or sampled audio；for hint tracks,a track corresponds to a streamingchannel)。

样本(Sample):与时间戳相关联的数据。在ISO/IEC 14496-12中有如下定义和解释：“all the data associated with a single timestamp”

在一个轨迹中，不存在对应同一个时间戳的两个样本(No two samples within atrack can share the same time-stamp)。在非提示轨迹中，一个样本可以是一个视频帧或者在解码顺序下的一系列视频帧，或者压缩后的一个音频帧；在提示轨迹中，一个样本定义了一个或多个流数据包的格式(In non-hint tracks,a sample is,for example,anindividual frame of video,a series of video frames in decoding order,or acompressed section of audio in decoding order；in hint tracks,a sample definesthe formation of one or more streaming packets)。

样本入口(sample entry)：样本入口用以描述样本(sample)的格式，样本入口的类型来决定了样本(sample)的解码方式。

MMT：MPEG Media Transport,定义了基于包传输网络的多媒体服务的封装格式，传输协议和消息发送机制。

盒子(box)：ISOBMFF文件是由多个盒子(box)构成，其中，一个box可以包括其它的box。轨迹中可以包括元数据box(moov box)和/或媒体数据box(mdat box)。

box在ISO/IEC 14496-12标准中的定义为：“object-oriented building blockdefined by a unique type identifier and length”，该定义的中文翻译为“面向对象的构建块，由唯一的类型标识符和长度定义”。

另外，box在某些规范被成为“原子”，可以包括MP4的第一个定义(Called“atom”insome specifications,including the first definition of MP4)。

辅助增强信息(supplementary enhancement information，SEI):是国际通信联盟(International Telecommunication Union，ITU)发布的视频编解码标准h.264，h.265中定义的一种网络接入单元(Network Abstract Layer Unit，NALU)的类型。

有时间属性的元数据轨迹(Timed metadata track):与时间顺序相关的信息元数据流。

覆盖层(Overlay):覆盖层，在背景视频或背景图像的某个区域之上额外叠加渲染的一层视频或者图片或者文本(可以具有时间属性)。(piece of visual media renderedover omnidirectional video or image item or over a viewport)

媒体呈现描述(Media presentation description，MPD):是标准ISO/IEC 23009-1中规定的一种文档，在该文档中包括了客户端构造HTTP-URL的元数据。在MPD中包括一个或者多个周期(period)元素，每个period元素可以包括有一个或者多个自适应集(adaptationset)，每个adaptationset中可以包括一个或者多个表示(representation)，每个representation中可以包括一个或者多个分段，客户端根据MPD中的信息，选择表示，并构建分段的http-URL，用于请求相应的分段。

为了描述媒体数据的有关时间的属性信息，OMAF标准中规定了在球面上的区域(region)的有时间属性的元数据轨迹(timed metadata track)。该元数据轨迹中的元数据的box中包含的是描述球面的元数据，在元数据的box中描述了有时间属性的元数据轨迹的意图，也就是球面区域是用来做什么的，在OMAF标准中描述了两种有时间属性的元数据轨迹：推荐视角元数据轨迹(the recommended viewport timed metadata track)和初始视点轨迹(the initial viewpoint timed metadata track)。其中，推荐视角轨迹描述了推荐给客户端呈现的视角的区域，初始视点轨迹描述了全景视频观看时的初始呈现方向。

现有的OMAF标准中规定的球面区域样本入口(Sample Entry)的格式如下：

上述球面区域样本入口中各个字段的语义如下：

Shape_type:用来描述球面区域形状类型；

Reserved：保留字段；

dynamic_range_flag：该值为0时表示区域的是水平垂直范围不变，该值为1时表示区域水平和垂直区域在样本中描述；

static_azimuth_range：区域的方位角覆盖范围；

static_elevation_range：区域的仰角覆盖范围；

num_regions：元数据轨迹中的区域个数。

OMAF中定义了两种球面区域形状类型，一种为四个大圆(Azimuth Circle)合成形成的形状，其shape_type值为0；另一种为两个大圆和两个小圆(Elevation Circle)合成形成的形状，其shape_type值为1。

现有的OMAF标准中规定的球面区域样本(Sample)格式定义如下：

上述球面区域样本中的各个字段的语义如下：

center_azimuth、center_elevation：表示球面区域的中心点位置；

Center_tilt：表示区域的倾斜角度；

azimuth_range：区域的方位角覆盖范围；

Elevation_range：区域的仰角覆盖范围。

在播放视频时，为了能够在不同的视角之间自由切换，可以在拍摄视频时采用多视点拍摄，多视点拍摄的特点是多视点同时记录，并且通过切换不同的视点来播放不同视角的视频。

例如，在拍摄视频的过程中一共采用了视点A和视点B两种视点进行拍摄，那么，在拍摄得到的视频中，当视点A出现在另一个视点B拍摄的360度全景视频中的某个区域时，可以用上述球面区域结构来定义该视点A在视点B的位置。而视点A所拍摄的360度全景视频可以用一个统一资源标识符(Uniform Resource Identifier，URI)链接来表示，当用户在观看B视点拍摄的视频时可以通过和视点A相关联的URI链接切换至视点A的视频观看。

具体地，可以采用下列语法在球面区域结构中定义一个视点在另一个视点的位置。

上述语法通过字段hotspot_uri定义了一个与球面区域相关联的URI指向另一个视点的360度全景视频链接。

在上述方式中，由于URI是带外的连接，无法区分两个视点是否属于同一场景(或者事件)的拍摄，并且URI在网络传输过程中容易被更改或者重定向，因此，采用URI无法稳定的表达与视点相关的视频。

因此，本申请提出了一种处理媒体数据的方法，通过在媒体数据的元数据信息中携带视点标识信息来指示媒体数据对应的视点，从而能够根据视点对媒体数据进行处理(例如，呈现)，从而能够更灵活地向用户展示不同视点的视频。

图2是本申请实施例的一种可能的应用场景的示意图。

如图2，以体育场中设置视点A、视点B和视点C来拍摄视频为例，其中，视点A和视点B的位置固定，视点C位于轨道上，位置可以随时变动。视点A、视点B和视点C各自放置一台摄像机，用于拍摄360度视频，其中，视点A拍摄视频的视角为视角1，视点B拍摄视频的视角为视角2，视角1和视角2有部分重叠，因此，在视点A拍摄的视频中的某些区域能够观察到视点B，在视点B拍摄的视频中的某些区域能够观察到视点A。其中，360度视频又称全向视频，或者全景视频，由一系列的全景图片组成，全景图片内容覆盖三维空间中整个球体表面。全景视频中的全景图像可以由计算机渲染产生，也可以通过拼接算法将多个相机分别从多个不同角度拍摄的视频图像拼接而成。

图3示出了本申请实施例的另一种可能的应用场景，在图3中，以体育场中设置视点A和视点B来拍摄视频为例，体育场中设置有视点A和视点B，视点A和视点B分别固定在体育场的两端，视点A拍摄视频的视角为视角1，视点B拍摄视频的视角为视角2，视角1和视角2没有重叠。由于视点A拍摄视频的视角与视点B拍摄视频的视角不重合，因此，在视点A和视点B各自拍摄的视频中的区域中都无法观看到其它视点。

应理解，上述图2和图3只是以体育场为例，示出了多视点拍摄视频的场景。实质上，多视点拍摄视频的场景还有很多，例如，采用多视点拍摄进行电视栏目制作，采用多视点拍摄进行晚会节目拍摄等等，任何采用多视点拍摄视频的场景都在本申请的范围内。

当前随着360度视频等虚拟现实(virtual reality，VR)视频的观看应用的日益普及，越来越多的用户加入到大视角的VR视频观看的体验队伍中。其中，虚拟现实技术就是利用现实生活中的数据，通过计算机技术产生的电子信号，将其与各种输出设备结合使其转化为能够让人们感受到的现象，这些现象可以是现实中真真切切的物体，也可以是用户肉眼所看不到的物质，通过三维模型表现出来。由于360度(本申请实施例将以360度为例进行说明)等大视角的视频观看过程中，VR视频的空间区域为360度的全景空间(或称全方位空间，或称全景视角)，超过了人眼正常的视觉范围，因此，用户在观看视频的过程中随时都会变换观看的角度(即视角，FOV)。用户观看的视角不同，看到的视频图像也将不同，故此视频呈现的内容需要随着用户的视角变化而变化。如图4所示，图4是视角变化对应的视角示意图。框1和框2分别为用户的两个不同的视角。用户在观看视频的过程中，可通过眼部或者头部转动，或者视频观看设备的画面切换等操作，将视频观看的视角由框1切换到框2。其中，用户的视角为框1时所观看的视频图像为该视角对应的一个或者多个视角在该时刻所呈现的视频图像。下一个时刻用户的视角切换为框2，此时用户观看到的视频图像也应该切换为框2对应的视角在该时刻所呈现视频图像。

在一些可行的实施方式中，对于360度大视角的视频图像的输出，服务器可将360度的视角范围内的全景空间进行划分以得到多个视角，每个视角对应用户的一个子视角，多个子视角的拼接形成一个完整的人眼观察视角。即人眼视角(下面简称视角)可对应一个或者多个划分得到的视角，视角对应的视角是人眼视角范围内的内容对象所对应的所有的视角。其中，人眼观察视角可以动态变化的，但是通常视角范围可为120度*120度，120度*120度的人眼视角范围内的内容对象对应的视角可包括一个或者多个划分得到的视角，例如上述图4该的框1对应的视角1，框2对应的视角2。进一步的，客户端可通过媒体呈现描述(Media presentation description，MPD)获取服务器为每个视角准备的视频码流的空间信息，进而可根据视角的需求向服务器请求某一时间段某个或者多个视角对应的视频码流分段并按照视角需求输出对应的视角。客户端在同一个时间段内输出360度的视角范围内的所有视角对应的视频码流分段，则可在整个360度的全景空间内输出显示该时间段内的完整视频图像。其中，MPD是标准ISO/IEC 23009-1中规定的一种文档，在该文档中包括了客户端构造HTTP-URL的元数据。在MPD中包括一个或者多个周期(period)元素，每个period元素可以包括有一个或者多个自适应集(adaptationset)，每个adaptationset中可以包括一个或者多个表示(representation)，每个representation中可以包括一个或者多个分段，客户端根据MPD中的信息，选择表示，并构建分段的http-URL，用于请求相应的分段。

具体实现中，在360度的视角的划分中，服务器可首先将球面映射为平面，在平面上对视角进行划分。具体的，服务器可采用经纬度的映射方式将球面映射为经纬平面图。如图5，图5是本发明实施例提供的视角的示意图。服务器可将球面映射为经纬平面图，并将经纬平面图划分为A～I等多个视角。进一步的，服务器可也将球面映射为立方体，再将立方体的多个面进行展开得到平面图，或者将球面映射为其他多面体，在将多面体的多个面进行展开得到平面图等。服务器还可采用更多的映射方式将球面映射为平面，具体可根据实际应用场景需求确定，在此不做限制。下面将以经纬度的映射方式，结合图6进行说明。如图5，服务器可将球面的全景空间划分为A～I等多个视角之后，则可为每个视角准备一组DASH视频码流。其中，每个视角对应的一组DASH视频码流。客户端用户切换视频观看的视角时，客户端则可根据用户选择的新视角获取新视角对应的码流，进而可将新视角码流的视频内容呈现在新视角内。

图6为本申请实施例提供的一种图像处理系统的架构示意图，如图6所示，该系统可以包括服务器10和客户端20。

服务器10：可以包括处理器、视频编码器、码流封装装置(可以用于生成MPD，当然服务器10也可以包括额外的部件来生成MPD)和发送传输装置中至少一种，对全景视频进行前处理，编码或转码的操作，同时将编码后的码流数据封装为可传输的文件，通过网络传输到客户端或者内容分发网络；除此之外，服务器可以根据客户端反馈的信息(如用户视角、基于服务器10发送的MPD建立的分段请求等)，选择需要传输的内容进行信号传输。

在具体实现过程中，处理器可以用于将全景视频图像进行裁剪，色彩格式变换，色彩校正或者去噪等预处理操作。

视频编码器可以用于对获得的视频图像进行编码(可以包括划分)形成码流数据。

码流封装装置可以用于将码流数据和相应的元数据封装成用于传输或者存储的文件格式，例如，ISO基本媒体文件格式。

发送传输装置可以是输入/输出接口，也可以是通信接口，可以用于发送封装后的码流数据、MPD与媒体数据传输相关的信息给客户端。

发送传输装置还可以是接收装置，接收装置可以是输入/输出接口，也可以是通信接口，可以用于接收客户端20发送的分段请求信息，目标观测视角信息或者其他媒体数据传输相关的信息。

服务器10可以使用接收装置获取全景视频图像，也可以包括图像源，图像源可以是相机或者摄像装置等，用于生成全景视频图像。

客户端20：可以是VR眼镜，手机，平板，电视，电脑等可以连上网络的电子设备。客户端20接收服务器10发送的MPD或者媒体数据，并进行码流解封装以及解码和显示。

客户端20可以包括：接收装置、码流解封装装置、视频解码器和显示装置中至少一种。

在具体实现过程中，接收装置可以是输入/输出接口，也可以是通信接口，可以用于接收封装后的码流数据、MPD与媒体数据传输相关的信息。

码流解封装装置可以用于获取需要的码流数据和相应的元数据。

视频解码器可以用于根据相应的元数据和码流数据解码得到视频图像。

显示装置可以用于对视频图像进行显示，或者根据相应的元数据，对视频图像进行显示。

接收装置还可以是发送装置，用于向服务器10发送目标观测视角信息、其他媒体数据传输相关的信息或者根据MPD发送分段请求信息。

接收装置还可以接收用户的指令，例如接收装置可以是连接鼠标的输入接口。

显示装置还可以是触摸显示屏，用于在显示的视频图像的同时接收用户指令，以实现与用户的交互。

应理解，处理器、视频编码器、码流封装装置、码流解封装装置或者视频解码器可以通过处理器读取存储器中的指令并执行指令的方式实现，也可以通过芯片电路实现。

本申请实施例提供的图像处理方法可应用于服务器10的视频编码器或者客户端20的视频解码器。

现有技术中，在第124次MPEG会议上，MPEG Vdieo小组提出了一种3DoF+视频的Evidence方案，如图7所示，该方案为编码端方案，该方案通过视点合成技术，用多视点图像合成一个中心视点全向图像，用中心视点全向图像反向对多视点图像进行有效信息擦除：同时存在于多视点图像和中心视点全向图像的像素会在多视点图像中被擦除。将被擦除的多视点图像剩余像素拼接成一张图像。只传输拼接图像和中心视点全向图像两路图像。

具体地，包括：

1.生成中心视点图像：用所有多视点图像(纹理和深度)通过视点合成技术生成中心视点图像(纹理和深度)。

2.用中心视点图像(纹理和深度)合成每个视点位置的预测图像(纹理和深度)，多视点图像和预测图像逐像素比对：若判决为像素相同，则认为是冗余像素，进行擦除(去冗余)。

3.从经过擦除的多视点图像中有效信息提取为一个个子块，并将所有子块拼接为一张图像(图像拼接)，称为拼接图像(纹理和深度)，产生拼接子块信息，包括：子块号、所示源视点号、所在源图像位置、子块大小、子块左上角在拼接图像上的位置。

4.将中心视点图像、拼接图像和拼接信息送入编码器。

示例性的，上述Evidence方案的解码端方案如图8所示：

1.从码流(纹理和深度)中进行HEVC解码(纹理和深度)，获得四路图像，分别是中心视点图像(纹理和深度)和拼接图像(纹理和深度)。

2.获得拼接信息，并通过拼接信息将拼接图像分解为每个子块，并用子块重建擦除源视点。

3.结合中心视点图像和被擦除源视点合成用户观看视点图像。

然而，Evidence方案附属信息数据量大，拼接图像中往往有数百个子块，子块信息包括：子块号、所示源视点号、所在源图像位置、子块大小、子块左上角在拼接图像上的位置。另外，Evidence方案去冗余不彻底，Evidence方案只去除了多视点图像和中心视点图像的视点冗余，而被擦除多视点之间的冗余并没有被去除。并且Evidence方案编解码效率低，数百个子块拼接在一起，构成了高频分量；且相似像素被去除，子块内图像也增加了不规则边界。Evidence方案需要对拼接图像进行视点重建，因为多视点图像被切割为数百个子块，需要将子块恢复到源图像位置，才能继续进行后续操作，增加额外处理时间。

此外，现有技术中还有一种方案是多视点合成技术，采集多视点图像，根据对应视点参数和格式信息，利用视点变换、视图融合、空洞填充等计算机视觉技术，合成出虚拟视点图像，如图9所示，视图A、B(纹理和深度)，进行三维扭曲、视图融合、合并视图、空洞填充等，合成综合视图C。

然而，多视点合成技术复杂度高，需要将输入的所有视点所有像素都做一次视点合成，处理流程复杂。同时，参考视点存在大量冗余，在无法有效提升合成质量的同时，额外增加了计算复杂度。而且多视点合成技术专门对于全向视频而言，大部分情况只需要渲染用户观看的视点图像，这在全向视频中只占了很小一部分。

因此，为了解决上述问题，本申请实施例提供了一种图像处理方法，可以对输入多视点图像进行有效信息决策，截取出每个视点特有的有效信息子图，完全去除两两视点间的视点冗余信息。在不丢失大量有效信息的同时，尽可能降低图像像素率，提高视频编解码效率。

下面以几个实施例为例对本申请的技术方案进行描述，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图10示出了本发明实施例提供的一图像处理的方法，可以是解码端方法，该方法的执行主体可以为图6所示实施例中的客户端20的视频解码器。如图10所示，该方法可以包括：

S1001：获取待观测场景对应的至少两个传输码流。

这里，上述待观测场景可以根据实际情况确定，例如多视点拍摄进行电视栏目制作，采用多视点拍摄进行晚会节目拍摄等场景。

示例性的，客户端可以向服务器请求某一时间段待观测场景对应的传输码流，将该码流的内容呈现在目标视点。

S1002：从所述至少两个传输码流中获得至少两个解码图像，其中，所述至少两个解码图像分别来自不同的传输码流，所述至少两个解码图像中包括至少一个基础视点图像和至少一个有效信息子图，所述至少一个有效信息子图为从非基础视点图像中获得的子图，所述非基础视点图像的有效信息子图包含所述非基础视点图像与所述基础视点图像不相似的像素，所述基础视点图像和所述非基础视点图像对应的视点不同，所述基础视点图像对应一个基础视点。

这里，上述至少两个解码图像通过对不同的传输码流解码获得，不同的解码图像来自不同的传输码流。解码图像中包括至少一个基础视点图像和至少一个有效信息子图，其中，基础视点图像对应一个基础视点。示例性的，以上述图2中的视点A、视点B和视点C为例，基础视点可以为视点A、视点B和视点C中任意一个或多个视点，也可以为除视点A、视点B和视点C外的新视点。如果基础视点为视点A，则基础视点图像为A视点图像，如果基础视点为视点A和视点B之间的某一视点D，则基础视点图像为D视点图像。其中，D视点图像可以根据本申请实施例中的图像处理方法合成。

上述有效信息子图为从非基础视点图像中截取的子图，上述有效信息子图包含非基础视点图像与基础视点图像不相似的像素。示例性的，像素相似条件可以包括像素差值在预设差值范围内和/或与相邻像素之间的关系的相似度在预设相似度范围内。具体的，上述像素相似条件可以采用窗口的方法判断，例如以某像素为中心取窗口，判断基础视点图像的像素窗口的和非基础视点图像中某一图像的对应像素窗口相似性，即判断窗口的像素差值是否在预设差值范围内，与相邻像素窗口之间的关系的相似度是否在预设相似度范围内等。其中，预设差值范围、预设相似度范围可以根据实际情况设置。最后从非基础视点图像中截取有效信息子图。

在本申请实施例中，上述基础视点图像和非基础视点图像对应的视点不同，为了方便理解，还是上述图2中的视点A、视点B和视点C为例，如果基础视点只有一个，基础视点为视点A，则非基础视点可以为视点B、视点C或者除视点A、视点B和视点C外的新视点。

在一种可能的实现方式中，在所述从所述至少两个传输码流中获得至少两个解码图像之后，还包括：

这里，所述基础视点图像包括深度图和纹理图中至少一个，所述非基础视点图像的有效信息子图包括深度图和纹理图中至少一个；所述基础视点图像对应的合成参数包括视点参数、图像格式、图像分辨率和深度图格式中至少一个，所述非基础视点图像的有效信息子图对应的合成参数包括视角域、图像中心偏移量、视点参数、图像格式、图像分辨率和深度图格式中至少一个。其中，上述纹理图也可以称为彩色图或者色彩图。

由上述可知，子图像特有的合成参数包括：视角域，图像中心偏移量。因此，将子图像特有的合成参数作为子图像参数，判断上述多个传输码流对应的解码图像的合成参数中是否包含子图像参数，如果包含，判定解码图像为非基础视点图像的有效信息子图，否则，判定解码图像为基础视点图像。通过上述判断方法遍历上述多个传输码流对应的解码图像，最终确定解码图像中的基础视点图像和有效信息子图，以便后续根据基础视点图像和有效信息子图合成视点图像。

S1003：根据所述至少一个有效信息子图和所述至少一个基础视点图像，以及所述至少一个有效信息子图对应的合成参数和所述至少一个基础视点图像对应的合成参数，合成目标视点图像。

其中，图像合成可以参考上述：根据上述有效信息子图和基础视点图像，以及上述有效信息子图和基础视点图像对应的合成参数，利用视点变换、视图融合、空洞填充等计算机视觉技术，合成目标视点图像。

这里，目标视点可以为上述非基础图像对应的非基础视点，也可以为新的非基础视点。为了方便理解，还是上述图2中的视点A、视点B和视点C为例，如果基础视点只有一个，非基础视点也只有一个，基础视点为视点A，非基础视点为视点B，则目标视点可以为视点C，也可以为除视点A、视点B和视点C外的新视点。

示例性的，在所述根据所述至少一个有效信息子图和所述至少一个基础视点图像，以及所述至少一个有效信息子图对应的合成参数和所述至少一个基础视点图像对应的合成参数，合成目标视点图像之前，还包括：

这里，为了更好地理解本申请技术方案，采用以下实施例，对方案进行介绍。

实施例一

获取待观测场景对应的2个传输码流。

从第1个码流中解码获得第1组解码图像，包括深度图和纹理图。从第2个码流中解码获得第2组解码图像，包括深度图和纹理图。

判断第1组解码图像的合成参数中不包含子图像参数，确定第1组解码图像为基础视点图像，第1组解码图像对应的合成参数：视点参数为[0,0,0,0,0,0]、图像格式为ERP格式、图像分辨率为[1024,512]和深度图格式。

判断第2组解码图像的合成参数中包含子图像参数，确定第2组解码图像为有效信息子图，第2组解码图像对应的合成参数：视角域、图像中心偏移量(hor_ratio＝1,ver_ratio＝1,offset_top＝10,offset_left＝10)、视点参数为[0,0,0,0,0,0]、图像格式为ERP格式、图像分辨率[1024,512]和深度图格式，另外，该有效信息子图的原始图像分别率为[2048,1024]，其中，hor_ratio＝1,ver_ratio＝1是图像水平宽度和垂直高度的缩放比例；offset_top＝10,offset_left＝10是子图左上角的第一个像素在原图中的像素坐标。

通过上述2组图像和其对应的合成参数，联合生成支持用户当前观看的视点图像。

实施例二

获取与待观测场景对应的3个传输码流。

从第1个码流中解码获得第1组解码图像，包括深度图和纹理图。从第2个码流中解码获得第2组解码图像，包括深度图和纹理图。从第3个码流中解码获得第3组解码图像，包括深度图和纹理图。

判断第2组解码图像的合成参数中包含子图像参数，确定第2组解码图像为有效信息子图，第2组解码图像对应的合成参数：视角域、图像中心偏移量(hor_ratio＝1,ver_ratio＝1,offset_top＝10,offset_left＝10)、视点参数为[0,0,0,0,0,0]、图像格式为ERP格式、图像分辨率[1024,512]和深度图格式，另外，该有效信息子图的原始图像分别率为[2048,1024]。

判断第3组解码图像的合成参数中不包含子图像参数，确定第3组解码图像为基础视点图像，第3组解码图像对应的合成参数：视点参数为[0,0,0,0,0,0]、图像格式为透视投影格式、图像分辨率为[1024,1024]和深度图格式。另外，还有Focal焦距信息[1024,1024]和光心偏移量[512，512]。这个实施例想说明，基础视点图像不是只能有一组；比如第三组图像和第一组图像差异特别大，第三组图像就可以不是子图而是基础视点图像。

通过上述3组图像和其对应的合成参数，联合生成支持用户当前观看的视点图像。

实施例三：

获取与待观测场景对应的2个传输码流。

从第1个码流中解码获得第1组解码图像，包括纹理图。从第2个码流中解码获得第2组解码图像，包括纹理图。

判断第1组解码图像的合成参数中不包含子图像参数，确定第1组解码图像为基础视点图像，第1组解码图像对应的合成参数：视点参数为[0,0,0,0,0,0]、图像格式为ERP格式、图像分辨率为[1024,512]。

判断第2组解码图像的合成参数中包含子图像参数，确定第2组解码图像为有效信息子图，第2组解码图像对应的合成参数：视角域、图像中心偏移量(hor_ratio＝1,ver_ratio＝1,offset_top＝10,offset_left＝10)、视点参数为[0,0,0,0,0,0]、图像格式为ERP格式、图像分辨率[1024,512]，另外，该有效信息子图的原始图像分别率为[2048,1024]。

本实施例对输入多视点图像进行有效信息决策，截取出非基础视点图像特有的有效信息子图，完全去除两两视点间的视点冗余信息，使得传输图像像素率大幅降低，带宽得到下降。而且对于每一基础视点图像和非基础视点图像的有效信息子图，均只有一组合成参数，在不降低合成质量的同时，降低处理复杂度。

以上结合图10从解码端侧详细描述了根据本申请实施例的图像处理的方法，下面将结合图11从编码端侧详细描述根据本申请实施例提供的另一图像处理的方法。应理解，编码端侧描述的某些概念、特性等与解码端侧的描述相应，为了简洁，适当省略重复的描述。

图11为本申请实施例提供了另一种图像处理方法的流程示意图，本实施例的执行主体可以为图6所示实施例中的服务器10的视频编码器，如图11所示，该方法可以包括：

S1101：根据至少两个视点图像确定基础视点图像，其中，所述至少两个视点图像对应同一场景，且所述至少两个视点图像对应的视点不同。

其中，上述至少两个视点图像为对应同一场景的图像，该场景可以是上述图2和图3所示的在体育场进行多视点拍摄视频的场景，也可以是多视点进行晚会节目拍摄的场景等，具体的场景可以根据实际情况确定，本申请对比不作限制。上述至少两个视点图像对应的视点不同，为了方便理解，以上述图2为例，上述至少两个视点图像可以为A视点图像、B视点图像和C视点图像中至少两个。

示例性的，上述根据至少两个视点图像确定基础视点图像可以包括：在至少两个视点图像中选择基础视点图像(一个或多个)，例如，上述图2所示，上述至少两个视点图像为A视点图像、B视点图像和C视点图像，则基础视点图像可以为A视点图像、B视点图像和C视点图像中任意一个或多个，或者根据上述至少两个视点图像合成基础视点图像(一个或多个)，例如，同样上述至少两个视点图像为A视点图像、B视点图像和C视点图像，基础视点图像可以为视点A和视点B之间的某一视点D的图像。其中，D视点图像可以根据本申请实施例中的图像处理方法合成。其中，具体采用哪种方式可以根据实际情况确定，例如根据编码效率确定。

应理解，上述基础视点图像是不做子图截取的，传输整个图像。

S1102：根据所述基础视点图像和所述至少两个视点图像中的非基础视点图像，从所述非基础视点图像中获得所述非基础视点图像的有效信息子图，其中，所述非基础视点图像的有效信息子图包含所述非基础视点图像与所述基础视点图像不相似的像素，所述基础视点图像和所述非基础视点图像对应的视点不同，所述基础视点图像对应一个基础视点。

具体的，判断预测图像的像素和所述非基础视点图像的像素是否满足像素相似条件，其中，所述预测图像根据所述基础视点图像生成，所述预测图像为所述非基础视点图像的预测图像；

其中，像素可以视为整个图像中不可分割的单位或者是元素，不可分割指它不能够再切割成更小单位抑或是元素，它是以一个单一颜色的小格存在，这些小方块都有一个明确的位置和被分配的色彩数值。

在判断预测图像的像素和非基础视点图像的像素是否满足像素相似条件时，可以采用窗口的方法，例如以某像素为中心取窗口，判断预测图像的像素窗口的和非基础视点图像的像素窗口相似性，即判断窗口的像素差值是否在预设差值范围内，与相邻像素窗口之间的关系的相似度是否在预设相似度范围内等。最后根据判断结果，从非基础视点图像中获得有效信息子图

示例性的，若所述预测图像的像素和所述非基础视点图像的像素满足所述像素相似条件，则将所述非基础视点图像的相应像素的有效权重设置为第一数值；

这里，进行有效信息截取：

预测图像和非基础视点图像(或者称为非参考源视点)逐像素进行像素判决，若预测图像的一像素和非基础视点图像的一像素满足像素相似条件，不对像素擦除，只是将非基础视点图像的该像素的有效权重重置为第一数值，例如0，反之，置为第二数值，例如1。根据像素的有效权重对所有非基础视点图像做子图截取，截取出相应的有效信息子图(子图中所有像素有效且是原图中像素)，即有效信息子图为根据非基础视点图像像素的有效权重，从非基础视点图像截取出的一个子区域(有效信息子图为非基础视点图像中的一个子区域，例如一个矩形子区域)。其中，非基础视点图像为上述至少两个视点图像中除基础视点图像外剩余的视点图像，图像像素的有效权重可以为表征非基础视点图像的像素与预测图像的像素相似程度的参量，例如上述图像像素的有效权重为0，表示非基础视点图像的像素与预测图像的像素相似，有效权重为1，表示非基础视点图像的像素与预测图像的像素不相似。

示例性的，有效信息截取如图12所示，在根据上述至少两个视点图像确定基础视点图像，根据基础视点图像生成预测图像后，根据预测图像和上述至少两个视点图像中非基础视点图像，从非基础视点图像中获得有效信息子图。

进一步地，在所述从所述非基础视点图像中获得所述非基础视点图像的有效信息子图之后，还包括：

具体的，可以根据基础视点图像生成非基础视点图像的预测图像，用预测图像对非基础视点图像进行有效信息子图截取。并且在截取出一张有效子图后，将有效子图和基础视点图像作为备选参考图像，根据该备选参考图像生成新的非基础视点图像的新的预测图像，用新的预测图像对新的非基础视点图像进行有效信息子图截取，重复以上步骤，直到满足终止条件(例如遍历完剩余的所有非基础视点图像)，停止处理。最后得到n组预测图像和m组有效信息子图，其中，m和n为正整数，可以实现对视点间的视点冗余信息的有效去除。

S1103：对所述基础视点图像和所述非基础视点图像的有效信息子图进行编码。

在一种可能的实现方式中，所述基础视点图像包括深度图和纹理图中至少一个，所述非基础视点图像的有效信息子图包括深度图和纹理图中至少一个；

其中，深度图的每个像素值表示场景中某个点与相机或者摄像装置等之间的距离；像素值可以是距离归一化到0到255的值；也可以是采用距离的倒数，然后在归一化到0到255。另外，像素点的排列方式为了和视频统一，可以采用yuv420，或者yuv400的方式等；uv分量取值128。

这里，对于每一基础视点图像和每一非基础视点图像的有效信息子图，都只有一组合成参数，两种图像共有的合成参数包括：视点参数(三维位置信息X，Y，Z和三维朝向信息Rotation，Roll，Pitch，例如[0,0,0,0,0,0])、图像格式(例如ERP/CMP/透视投影等)，图像分辨率(例如[1024,512])和深度图格式，而子图像特有的合成参数包括：视角域，图像中心偏移量。

进一步地，对所有图像和/或其对应的合成参数进行编码。其中，图像的合成参数可以进行编码，进而由解码端的客户端进行相应处理，也可以通过其他方式发送到客户端。

本实施例，提供不同场景的码流，通过有效信息子图实现对视点间冗余信息的有效去除，在不丢失大量有效信息的同时，提高编码效率，另外，每一基础视点图像和有效信息子图，均只有一组合成参数，将相应的图像和合成参数进行编码，在不降低合成质量的同时，降低处理复杂度。

另外，除上述图10、图11所述的图像处理方法外，本申请实施例还提供了一种图像处理方法：根据上述至少两个视点图像确定基础视点图像，根据基础视点图像和非基础视点图像的像素，从非基础视点图像中获得有效信息子图，将基础视点图像和非基础视点图像的有效信息子图存储在本地，不进行压缩。

在用户观看时，根据存在本地的基础视点图像和非基础视点图像的有效信息子图，获得待观测场景对应的至少一个基础视点图像和至少一个有效信息子图，根据获取的有效信息子图和基础视点图像，以及有效信息子图对应的合成参数和基础视点图像对应的合成参数，合成目标视点图像。

示例性的，实施例四：

获得第1组图像，包括深度图和纹理图；第2组图像，包括深度图和纹理图；第3组图像，包括深度图和纹理图。

判断第1组图像的合成参数中不包含子图像参数，确定第1组图像为基础视点图像，第1组图像对应的合成参数：视点参数为[0,0,0,0,0,0]、图像格式为ERP格式、图像分辨率为[1024,512]和深度图格式。

判断第2组图像的合成参数中包含子图像参数，确定第2组图像为有效信息子图，第2组图像对应的合成参数：视角域、图像中心偏移量(hor_ratio＝1,ver_ratio＝1,offset_top＝10,offset_left＝10)、视点参数为[0,0,0,0,0,0]、图像格式为ERP格式、图像分辨率[1024,512]和深度图格式，另外，该有效信息子图的原始图像分别率为[2048,1024]。

判断第3组图像的合成参数中不包含子图像参数，确定第3组图像为基础视点图像，第3组图像对应的合成参数：视点参数为[0,0,0,0,0,0]、图像格式为透视投影格式、图像分辨率为[1024,1024]和深度图格式。另外，还有Focal焦距信息[1024,1024]和光心偏移量[512，512]。通过上述3组图像和其对应的合成参数，联合生成支持用户当前观看的视点图像。

实施例五：

获得第1组图像，包括纹理图；第2组图像，包括纹理图；第3组图像，包括纹理图。

判断第1组图像的合成参数中不包含子图像参数，确定第1组图像为基础视点图像，第1组图像对应的合成参数：视点参数为[0,0,0,0,0,0]、图像格式为ERP格式、图像分辨率为[1024,512]。

判断第2组图像的合成参数中包含子图像参数，确定第2组图像为有效信息子图，第2组图像对应的合成参数：视角域、图像中心偏移量(hor_ratio＝1,ver_ratio＝1,offset_top＝10,offset_left＝10)、视点参数为[0,0,0,0,0,0]、图像格式为ERP格式、图像分辨率[1024,512]，另外，该有效信息子图的原始图像分别率为[2048,1024]。

判断第3组图像的合成参数中不包含子图像参数，确定第3组图像为基础视点图像，第3组图像对应的合成参数：视点参数为[0,10,10,0,0,0]、图像格式为透视投影格式、图像分辨率为[1024,1024]。另外，还有Focal焦距信息[1024,1024]和光心偏移量[512，512]。

图13为本申请提供的一种图像处理装置的结构示意图，该装置包括：获取模块1301、第一获得模块1302和第一处理模块1303。

其中，获取模块1301，用于获取待观测场景对应的至少两个传输码流。

第一获得模块1302，用于从所述至少两个传输码流中获得至少两个解码图像，其中，所述至少两个解码图像分别来自不同的传输码流，所述至少两个解码图像中包括至少一个基础视点图像和至少一个有效信息子图，所述至少一个有效信息子图为从非基础视点图像中获得的子图，所述非基础视点图像的有效信息子图包含所述非基础视点图像与所述基础视点图像不相似的像素，所述基础视点图像和所述非基础视点图像对应的视点不同，所述基础视点图像对应一个基础视点。

第一处理模块1303，用于根据所述至少一个有效信息子图和所述至少一个基础视点图像，以及所述至少一个有效信息子图对应的合成参数和所述至少一个基础视点图像对应的合成参数，合成目标视点图像。

可选地，上述装置，还包括：

第二获得模块1304，用于在所述第一处理模块1303根据所述至少一个有效信息子图和所述至少一个基础视点图像，以及所述至少一个有效信息子图对应的合成参数和所述至少一个基础视点图像对应的合成参数，合成目标视点图像之前，从所述至少两个传输码流中获得所述至少一个有效信息子图对应的合成参数和所述至少一个基础视点图像对应的合成参数。

可选地，上述装置，还包括：

第一确定模块1305，用于在所述第一获得模块1302从所述至少两个传输码流中获得至少两个解码图像之后，确定所述至少两个解码图像中解码图像的合成参数中是否包含子图像参数，所述子图像参数包括视角域和图像中心偏移量中至少一个，其中，所述视角域用于指示所述非基础视点图像的有效信息子图在所述非基础视点图像中的大小，所述图像中心偏移量用于指示所述非基础视点图像的有效信息子图在所述非基础视点图像中的位置；

可选地，所述基础视点图像包括深度图和纹理图中至少一个，所述非基础视点图像的有效信息子图包括深度图和纹理图中至少一个；所述基础视点图像对应的合成参数包括视点参数、图像格式、图像分辨率和深度图格式中至少一个，所述非基础视点图像的有效信息子图对应的合成参数包括视角域、图像中心偏移量、视点参数、图像格式、图像分辨率和深度图格式中至少一个。

本实施例的装置，对应地可用于执行图10所示实施例中的技术方案，其实现原理和技术效果类似，此处不再赘述。

图14为本申请提供的另一种图像处理装置的结构示意图，该装置包括：第二确定模块1401、第三获得模块1402和第二处理模块1403。

其中，第二确定模块1401，用于根据至少两个视点图像确定基础视点图像，其中，所述至少两个视点图像对应同一场景，且所述至少两个视点图像对应的视点不同。

第三获得模块1402，用于根据所述基础视点图像和所述至少两个视点图像中的非基础视点图像，从所述非基础视点图像中获得所述非基础视点图像的有效信息子图，其中，所述非基础视点图像的有效信息子图包含所述非基础视点图像与所述基础视点图像不相似的像素，所述基础视点图像和所述非基础视点图像对应的视点不同，所述基础视点图像对应一个基础视点。

第二处理模块1403，用于对所述基础视点图像和所述非基础视点图像的有效信息子图进行编码。

可选地，所述第三获得模块1402具体用于：

可选地，所述第三获得模块1402根据判断结果，从所述非基础视点图像中获得所述非基础视点图像的有效信息子图，包括：

可选地，所述基础视点图像包括深度图和纹理图中至少一个，所述非基础视点图像的有效信息子图包括深度图和纹理图中至少一个。

所述装置还包括：第四获得模块1404，用于在所述第二处理模块1403对所述基础视点图像和所述非基础视点图像的有效信息子图进行编码之前，获得所述基础视点图像对应的合成参数和所述非基础视点图像的有效信息子图对应的合成参数，其中，所述基础视点图像对应的合成参数包括视点参数、图像格式、图像分辨率和深度图格式中至少一个，所述非基础视点图像的有效信息子图对应的合成参数包括视角域、图像中心偏移量、视点参数、图像格式、图像分辨率和深度图格式中至少一个。

所述第二处理模块1403具体用于：

可选地，所述第三获得模块1402，还用于在所述从所述非基础视点图像中获得所述非基础视点图像的有效信息子图之后，将所述非基础视点图像的有效信息子图和所述基础视点图像作为备选参考图像，根据所述备选参考图像生成新的非基础视点图像的新的预测图像；

本实施例的装置，对应地可用于执行图11所示实施例中的技术方案，其实现原理和技术效果类似，此处不再赘述。

可选地，图15示意性地提供本申请所述计算设备的一种可能的基本硬件架构。

参见图15，计算设备1500包括处理器1501、存储器1502、通信接口1503和总线1504。

其中，计算设备1500可以是计算机或服务器，本申请对此不作特别限制。计算设备1500中，处理器1501的数量可以是一个或多个，图15仅示意了其中一个处理器1501。可选地，处理器1501，可以是中央处理器(central processing unit，CPU)。如果计算设备1500具有多个处理器1501，多个处理器1501的类型可以不同，或者可以相同。可选地，计算设备1500的多个处理器1501还可以集成为多核处理器。

存储器1502存储计算机指令和数据；存储器1502可以存储实现本申请提供的图10图像处理方法所需的计算机指令和数据，例如，存储器1502存储用于实现图10图像处理方法的步骤的指令。存储器1502可以是以下存储介质的任一种或任一种组合：非易失性存储器(例如只读存储器(ROM)、固态硬盘(SSD)、硬盘(HDD)、光盘)，易失性存储器。

通信接口1503可以是以下器件的任一种或任一种组合：网络接口(例如以太网接口)、无线网卡等具有网络接入功能的器件。

通信接口1503用于计算设备1500与其它计算设备或者终端进行数据通信。

图15用一条粗线表示总线1504。总线1504可以将处理器1501与存储器1502和通信接口1503连接。这样，通过总线1504，处理器1501可以访问存储器1502，还可以利用通信接口1503与其它计算设备或者终端进行数据交互。

在本申请中，计算设备1500执行存储器1502中的计算机指令，使得计算设备1500实现本申请提供的图10图像处理方法，或者使得计算设备1500部署图13的图像处理装置。

另外，图13的图像处理装置除了可以像上述图15通过软件实现外，也可以作为硬件模块，或者作为电路单元，通过硬件实现。

本申请提供一种计算机可读存储介质，所述计算机程序产品包括计算机指令，所述计算机指令指示计算设备执行本申请提供的图10图像处理方法。

可选地，图16示意性地提供本申请所述计算设备的另一种可能的基本硬件架构。

参见图16，计算设备1600包括处理器1601、存储器1602、通信接口1603和总线1604。

其中，计算设备1600可以是计算机或服务器，本申请对此不作特别限制。计算设备1600中，处理器1601的数量可以是一个或多个，图16仅示意了其中一个处理器1601。可选地，处理器1601，可以是中央处理器。如果计算设备1600具有多个处理器1601，多个处理器1601的类型可以不同，或者可以相同。可选地，计算设备1600的多个处理器1601还可以集成为多核处理器。

存储器1602存储计算机指令和数据；存储器1602可以存储实现本申请提供的图11图像处理方法所需的计算机指令和数据，例如，存储器1602存储用于实现图11图像处理方法的步骤的指令。存储器1602可以是以下存储介质的任一种或任一种组合：非易失性存储器(例如只读存储器(ROM)、固态硬盘(SSD)、硬盘(HDD)、光盘)，易失性存储器。

通信接口1603可以是以下器件的任一种或任一种组合：网络接口(例如以太网接口)、无线网卡等具有网络接入功能的器件。

通信接口1603用于计算设备1600与其它计算设备或者终端进行数据通信。

图16用一条粗线表示总线1604。总线1604可以将处理器1601与存储器1602和通信接口1603连接。这样，通过总线1604，处理器1601可以访问存储器1602，还可以利用通信接口1603与其它计算设备或者终端进行数据交互。

在本申请中，计算设备1600执行存储器1602中的计算机指令，使得计算设备1600实现本申请提供的图11图像处理方法，或者使得计算设备1600部署图14的图像处理装置。

另外，图14的图像处理装置除了可以像上述图16通过软件实现外，也可以作为硬件模块，或者作为电路单元，通过硬件实现。

本申请还提供一种计算机可读存储介质，所述计算机程序产品包括计算机指令，所述计算机指令指示计算设备执行本申请提供的图11图像处理方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本发明实施例还提供了一种处理媒体数据的方法，可以对输入多视点图像进行有效信息决策，截取出每个视点特有的有效信息子图，完全去除两两视点间的视点冗余信息。在不丢失大量有效信息的同时，尽可能降低图像像素率，提升单位像素分配码率，提高合成质量。

本发明实施例提供的处理媒体数据的方法对于每一个传输子图像，只有一组合成参数，包括：视点参数(三维位置信息X,Y,Z和三维朝向信息Rotation，Roll，Pitch)、原始图像格式，子图像分辨率，子图像参数(子图像视角域信息，深度图参数Z_near,Z_far)

本发明实施例提供的处理媒体数据的方法对输入合成器的图像进行拓展，不再是原始图像的全部，而是对合成用户观看的Viewport其作用的图像子区域，有效降低处理复杂度。

为解决上述问题，解决方法可以有以下两种：联合编码多视点视频，优点是编解码效率高；第二种是对多视点图像进行有效信息分析，部分视点图像只传输有效子区域，降低传输像素率。优点是像素率有效降低，且只需要使用市场通用的编码器。综上，结合目前市场上主流使用的编码器支持编码的类型，第二种更利于商用普及，如图17所示是一种有效信息决策过程的示意图。

本发明实施例提供了一种处理媒体数据的方法可以是编码端方法，该方法可以有服务器执行，该方法可以包括：

1.基础视点选择：在源视点选择基础视点(1个或多个)，基础视点是不做子图截取的，传输整个图像。应理解，所选择的对象包括如上文所述的Evidence方案中的中心视点图像。

2.有效信息截取：

2.1.用基础视点图像放入预测图像列表中；

2.2.用预测图像列表中的图像对非基础视点图像进行预测。

2.3.预测图像和非参考源视点(或者称为非基础视点)图像逐像素进行像素判决，若判定为相似像素，不对像素擦除，只是将该像素有效权重置为0，反之，置为1。根据像素有效权重对所有非参考源视点做子图截取，只截取出一张有效子图(子图中所有像素有效且是原图中像素)。

2.4.截取出一张有效子图后，将有效子图加入到预测列表中，重复以上两个步骤，直到满足终止条件，终止条件例如但不限于。

3.经过决策，得到n组基础视点图像和m组子图像(纹理和深度)，并生成相对应的合成参数，其中两种图像参数共有的是：视点参数、图像格式参数，图像分辨率，深度图格式，而子图特有的是子图像参数，包括：视角域，图像中心偏移量。其中，m和n为正整数。

4.将所有图像和对应合成参数送入编码器中。

本发明实施例提供了一种处理媒体数据的方法可以是解码端方法，该方法可以由客户端执行，客户端可以是位于客户端设备上为客户提供视频播放服务的程序，客户端可以是具有播放全景视频功能的设备，例如，VR设备。该方法可以包括：

1.获得N组解码图像(N大于等于2)，每组解码图像即可包括纹理图和深度图，也可以只有纹理图，

2.获得每组图像对应的合成参数，合成参数包括：图像格式信息(也可以称为投影格式信息)、图像分辨率、视点参数和子图像参数

3.解析每组图像的合成参数，判决每组图像是否为子图像

4.对于完整图像，获取每组图像的投影格式信息(ERP/CMP/透视投影)、图像分辨率和视点参数

5.对于完整图像，获取每组图像的投影格式信息(ERP/CMP/透视投影)、图像分辨率、视点参数和子图像参数

6.通过所有解码图像和对应合成信息联合生成用户渲染Viewport图像。需要说明的是，用户渲染Viewport图像对应的视点不是基础视点时，所述联合生成包括：根据解码图像和对应合成信息合成用户渲染Viewport图像对应的视点图像(既非基础视点图像的预测图像)。

具体的，该方法可以包括：

1.获得N组图像，

2.获得每组图像对应的合成参数，

3.解析第i组合成参数，(i是1到N的其中一个数)，其中子图像信息不存在，确认第i组图像为完整图像。

4.获得第i组图像的投影格式信息，解析第i组图像的图像分辨率,获取第i组图像的视点参数，

5.解析第j组合成参数，(j是1到N的其中一个数)，其中子图像信息存在，确认第j组图像为子图像。

6.获得第j组图像的投影格式信息，获取第j组图像的图像分辨率,获取第j组图像的子图像参数，获取第j组图像的视点参数，

7.通过N组图像和对应合成信息联合生成用户渲染Viewport图像。

下面结合具体的实施例对上述方法的实施细节进行详细的描述。

实施例一：(每个码流对应一个解码图像经过解码，有深度图)

1.从码流中获得2个传输码流，将码流划分为2个子码流。

2.从第1个码流中解码获得第1组解码图像，包含纹理图和深度图，并获得第1组解码图像对应的合成参数。

3.解析第1组合成参数，其中子图像信息不存在,确认其为完整图像。

4.获得第1组解码图像的投影格式信息，确认为ERP格式，获取图像分辨率为[1024,512],获取第1组图像的视点参数为[0,0,0,0,0,0]，

5.解析第2组合成参数，其中子图像信息存在，确认其为子图像。

6.获得第2组解码图像的投影格式信息，确认其为ERP格式，获取子图像参数，可以包括：hor_ratio＝1,ver_ratio＝1,offset_top＝10,offset_left＝10,子图像分辩率[1024,512]，原始图像分辨率为[2048,1024],获取第2组图像的视点参数，该视点参数与1组图像的视点参数不同，例如可以为[0,10,0,0,0,0]。其中，hor_ratio＝1,ver_ratio＝1是图像水平宽度和垂直高度的缩放比例；offset_top＝10,offset_left＝10,是子图左上角的第一个像素在原图中的像素坐标。

7.通过2组图像和对应合成信息联合生成用户渲染Viewport图像。

实施例二：(经过解码，无深度图)

1.解码获得2组图像，每组图像只包括纹理图，图像所有像素都有效，

2.解码获得每组图像对应的合成参数，

3.解析第1组合成参数，其中子图像信息不存在，确认其为完整图像，

4.获得第1组图像的格式信息，确认为ERP格式，获取图像分辨率为[1024,512]，

5.解析第2组合成参数，其中子图像信息存在，确认其为子图像，获取第1组图像的视点参数为[0,0,0,0,0,0]

6.获得第2组图像的格式信息，确认为ERP格式，获取子图像参数包括：hor_ratio＝1,ver_ratio＝1,offset_top＝10,offset_left＝10,子图像分辩率[1024,512]，原始图像分辨率为[2048,1024]，获取第2组图像的视点参数，该视点参数与1组图像的视点参数不同，例如可以可以为[0,10,0,0,0,0]

7.通过2组图像和相应合成信息联合生成用户渲染Viewport图像。

实施例三：(不经过解码，有深度图)

1.获得3组图像，每组图像包括纹理图和深度图，图像所有像素都有效，

2.获得每组图像对应的合成参数，

4.获得第1组图像的格式信息，确认为ERP格式，获取图像分辨率为[1024,512]，获取第1组图像的视点参数为[0,0,0,0,0,0]

5.解析第2组合成参数，其中子图像信息存在，确认其为子图像，

7.解析第3组合成参数，其中子图像信息不存在，确认其为完整图像。这个实施例想说明，完整图像不是只能有一组；比如第三组图像和第一组图像差异特别大，第三组图像就可以不是子图而是全图。

8.获得第3组图像的格式信息，确认为透视投影格式，获取图像分辨率为[1024,1024]、Focal焦距信息[1024,1024]和光心偏移量[512，512]，获取第3组图像的视点参数，该视点参数与1组图像的视点参数和第2组图像的视点参数不同，例如可以可以为[0,10,10,0,0,0]

9.通过3组图像和相应合成信息联合生成用户渲染Viewport图像。

实施例四：(不经过解码，没有深度图)

1.获得3组图像，每组图像只包括纹理图，图像所有像素都有效，

2.获得每组图像对应的合成参数，

6.获得第2组图像的格式信息，确认为ERP格式，获取子图像参数包括：hor_ratio＝1,ver_ratio＝1,offset_top＝10,offset_left＝10,子图像分辩率[1024,512]，原始图像分辨率为[2048,1024]，获取第2组图像的视点参数为[0,0,0,0,0,0]

7.解析第3组合成参数，其中子图像信息不存在，确认其为完整图像，

8.获得第3组图像的格式信息，确认为透视投影格式，获取图像分辨率为[1024,1024]、Focal焦距信息[1024,1024]和光心偏移量[512，512]，获取第3组图像的视点参数为，该视点参数与1组图像的视点参数和第2组图像的视点参数不同，例如可以可以为[0,10,10,0,0,0]。

实施例五

一种多视点图像处理方法，包括：

获得N组图像，N大于等于2，

获得每组图像对应的合成参数，

解析第i组合成参数，(i是1到N的其中一个数)，其中子图像信息不存在，确认第i组图像为完整图像。

获得第i组图像的投影格式信息，获取第i组图像的图像分辨率,获取第i组图像的视点参数，

解析第j组合成参数，(j是1到N的其中一个数)，其中子图像信息存在，确认第j组图像为子图像。

获得第j组图像的投影格式信息，获取第j组图像的图像分辨率,获取第j组图像的子图像参数，获取第j组图像的视点参数，

通过N组图像和对应合成信息联合生成用户渲染Viewport图像。

一种多视点图像处理装置，包括：

码流解析模块：其输入为第i个码流，输出为第i组解码图像和对应合成参数

子图像判决模块：其输入为第i个合成参数，输出为是否为子图像的判决结果

合成模块：输入为所有图像和对应的合成参数，输出为用户观看的Viewport图像。

实施例六

(1)获得至少两路图像，每组图像对应一组合成参数，，图像每个像素都是有效像素。

(2)至少有一路图像是完整图像

(3)至少有一路图像是子图像

(4)使用所有图像和对应合成参数合成用户观看的Viewport

本发明技术方案带来的有益效果

对输入多视点图像进行有效信息决策，截取出每个视点特有的有效信息子图，完全去除两两视点间的视点冗余信息。传输图像像素率大幅降低，带宽得到下降

对于每一个传输子图像，只有一组合成参数，包括：视点参数(三维位置信息X,Y,Z和三维朝向信息Rotation，Roll，Pitch)、原始图像格式，子图像分辨率，子图像参数(子图像视角域信息，深度图参数Z_near,Z_far)

只传输原始图像的子图送入合成器中，在不降低合成质量的同时，降低处理复杂度。

Claims

1.一种图像处理方法，其特征在于，包括：

获取待观测场景对应的至少两个传输码流；

从所述至少两个传输码流中获得至少两个解码图像，其中，所述至少两个解码图像分别来自不同的传输码流，所述至少两个解码图像中包括至少一个基础视点图像和至少一个有效信息子图，所述至少一个有效信息子图从非基础视点图像中获得，所述非基础视点图像的有效信息子图包含所述非基础视点图像与所述基础视点图像不相似的像素，所述基础视点图像和所述非基础视点图像对应的视点不同，所述基础视点图像对应一个基础视点；

根据所述至少一个有效信息子图和所述至少一个基础视点图像，以及所述至少一个有效信息子图对应的合成参数和所述至少一个基础视点图像对应的合成参数，合成目标视点图像。

2.根据权利要求1所述的方法，其特征在于，在所述根据所述至少一个有效信息子图和所述至少一个基础视点图像，以及所述至少一个有效信息子图对应的合成参数和所述至少一个基础视点图像对应的合成参数，合成目标视点图像之前，还包括：

3.根据权利要求1或2所述的方法，其特征在于，在所述从所述至少两个传输码流中获得至少两个解码图像之后，还包括：

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述基础视点图像包括深度图和纹理图中至少一个，所述非基础视点图像的有效信息子图包括深度图和纹理图中至少一个；所述基础视点图像对应的合成参数包括视点参数、图像格式、图像分辨率和深度图格式中至少一个，所述非基础视点图像的有效信息子图对应的合成参数包括视角域、图像中心偏移量、视点参数、图像格式、图像分辨率和深度图格式中至少一个。

5.一种图像处理方法，其特征在于，包括：

根据至少两个视点图像确定基础视点图像，其中，所述至少两个视点图像对应同一场景，且所述至少两个视点图像对应的视点不同；

根据所述基础视点图像和所述至少两个视点图像中的非基础视点图像，从所述非基础视点图像中获得所述非基础视点图像的有效信息子图，其中，所述非基础视点图像的有效信息子图包含所述非基础视点图像与所述基础视点图像不相似的像素，所述基础视点图像和所述非基础视点图像对应的视点不同，所述基础视点图像对应一个基础视点；

对所述基础视点图像和所述非基础视点图像的有效信息子图进行编码。

6.根据权利要求5所述的方法，其特征在于，所述根据所述基础视点图像和所述至少两个视点图像中的非基础视点图像，从所述非基础视点图像中获得所述非基础视点图像的有效信息子图，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据判断结果，从所述非基础视点图像中获得所述非基础视点图像的有效信息子图，包括：

8.根据权利要求5至7中任一项所述的方法，其特征在于，所述基础视点图像包括深度图和纹理图中至少一个，所述非基础视点图像的有效信息子图包括深度图和纹理图中至少一个；

9.根据权利要求6或7所述的方法，其特征在于，在所述从所述非基础视点图像中获得所述非基础视点图像的有效信息子图之后，还包括：

将所述非基础视点图像的有效信息子图和所述基础视点图像作备选参考图像，根据所述备选参考图像生成新的非基础视点图像的新的预测图像；

10.一种图像处理装置，其特征在于，包括：

获取模块，用于获取待观测场景对应的至少两个传输码流；

11.根据权利要求10所述的装置，其特征在于，还包括：

12.根据权利要求10或11所述的装置，其特征在于，还包括：

13.根据权利要求10至12中任一项所述的装置，其特征在于，所述基础视点图像包括深度图和纹理图中至少一个，所述非基础视点图像的有效信息子图包括深度图和纹理图中至少一个；所述基础视点图像对应的合成参数包括视点参数、图像格式、图像分辨率和深度图格式中至少一个，所述非基础视点图像的有效信息子图对应的合成参数包括视角域、图像中心偏移量、视点参数、图像格式、图像分辨率和深度图格式中至少一个。

14.一种图像处理装置，其特征在于，包括：

15.根据权利要求14所述的装置，其特征在于，所述第三获得模块具体用于：

16.根据权利要求15所述的装置，其特征在于，所述第三获得模块根据判断结果，从所述非基础视点图像中获得所述非基础视点图像的有效信息子图，包括：

17.根据权利要求14至16中任一项所述的装置，其特征在于，所述基础视点图像包括深度图和纹理图中至少一个，所述非基础视点图像的有效信息子图包括深度图和纹理图中至少一个；

所述第二处理模块具体用于：

18.根据权利要求15或16所述的装置，其特征在于，所述第三获得模块，还用于在所述从所述非基础视点图像中获得所述非基础视点图像的有效信息子图之后，将所述非基础视点图像的有效信息子图和所述基础视点图像作为备选参考图像，根据所述备选参考图像生成新的非基础视点图像的新的预测图像；

19.一种计算设备，其特征在于，包括：

包括处理器和存储器；

所述存储器，用于存储计算机指令；

所述处理器，用于执行所述存储器存储的计算机指令，使得所述计算设备执行权利要求1至4任一项所述的方法。

20.一种计算机可读存储介质，其特征在于，所述计算机程序产品包括计算机指令，所述计算机指令指示计算设备执行权利要求1至4任一项所述的方法。

21.一种计算设备，其特征在于，包括：

包括处理器和存储器；

所述存储器，用于存储计算机指令；

所述处理器，用于执行所述存储器存储的计算机指令，使得所述计算设备执行权利要求5至9任一项所述的方法。

22.一种计算机可读存储介质，其特征在于，所述计算机程序产品包括计算机指令，所述计算机指令指示计算设备执行权利要求5至9任一项所述的方法。