CN108833937A

CN108833937A - 视频处理方法和装置

Info

Publication number: CN108833937A
Application number: CN201810539735.XA
Authority: CN
Inventors: 宋翼; 邸佩云; 曾旭红; 刘茂征; 查钧; 周建同
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-05-30
Filing date: 2018-05-30
Publication date: 2018-11-16
Anticipated expiration: 2038-05-30
Also published as: CN108833937B; US20210084096A1; EP3767956A1; US11902350B2; EP3767956A4; WO2019227904A1

Abstract

本申请提供了一种视频处理方法和装置。该方法包括：服务器将物体的感知属性信息和物体的空间位置信息添加到视频码流或视频文件，并对所述视频码流或所述视频文件进行封装，所述感知属性信息用于表示物体在被用户感知时所呈现出的性质；终端设备获取携带物体的感知属性信息和物体的空间位置信息的视频码流或视频文件，并基于用户的行为，结合所述物体的感知属性信息和所述物体的空间位置信息，对所述物体的感知属性进行感知渲染。本申请实施例的视频处理方法和装置，能够将物体的感知属性与物体的空间位置相关联，从而获得更好的用户体验。

Description

视频处理方法和装置

技术领域

本申请涉及媒体传输技术领域，并且更具体地，涉及一种视频处理方法和装置。

背景技术

人体感知，指的是人对外界环境的感觉，比如视觉、嗅觉、听觉、触觉等。在观看普通视频时，终端设备只触发我们使用视觉和听觉来感知视频内容，如我们在观看视频中，可以在屏幕上看到视频图像以及在扬声器中听到音频。

对于在观看视频时触发人体的其他感觉，如嗅觉和触觉，现也已经在一些视频应用中使用，比如在某些私人影院中存在定制的喷水系统，当观看电影中某些场景如下雨时，喷水系统会随之喷洒雾水，给观看者带来水雾扑面的体验，触发观看者的触觉。此外，现有的一种基于嗅觉信息的传送方法主要应用于传统信号传输系统中，在某段时间内，使用气味传感器将当前时刻的气味进行捕获，生成气味信息码；然后将该码流发送至客户端，客户端通过获取到的所述气味信息码，进行解码并处理获得气味信息，然后散发该信息对应的气味。

上述方法仅对当前环境中的所有气味进行信号编码传输，这些气味信息仅与编码的时间段有关。因此，这种方法无法将气味信息与视频中的物体或者是视频内容结合起来，观看者可能会因此嗅到与观看到的视频内容无关的气味，无法使得视频中的不同物体给用户带来不同感知，影响用户的观看体验。

发明内容

本申请提供一种视频处理方法和装置，能够将物体的感知属性与物体在视频中的空间位置相关联，从而获得更好的用户体验。

第一方面，提供了一种视频处理方法，包括：服务器获取源视频数据；所述服务器确定所述源视频数据中需要对感知属性信息进行编码的至少一个物体，所述感知属性信息用于表示所述至少一个物体在被用户感知时所呈现出的性质；所述服务器获取所述至少一个物体的所述感知属性信息和所述至少一个物体的空间位置信息；所述服务器将所述感知属性信息和所述空间位置信息添加到对所述源视频数据编码后生成的视频码流中或所述源视频数据的视频文件中，其中，所述视频文件用于描述所述源视频数据的视频属性。

具体地，感知属性信息即为表示物体的感知属性的信息，具体用于表示物体在被用户感知时所呈现出的性质，例如，嗅觉、触觉等。空间位置信息用于表示物体在视频中的空间位置，以全景视频为例，物体的空间位置信息为物体在以感知属性信息捕获装置为球心的坐标系内的三维位置坐标，具体可以结合物体在经纬图的二维坐标和物体与上述感知属性捕获装置之间的距离计算得到，但本申请实施例对此不作限定。

应理解，在感知属性信息和空间位置信息携带在辅助增强信息SEI或媒体文件格式中的情况下，上述空间位置信息还可以包括物体在图像中的二维位置信息，例如，物体在经纬图的二维坐标。

本申请实施例的视频处理方法，通过将除了视觉和听觉之外的其他人体感知属性表示在视频码流或视频文件中，并将物体的感知属性与物体的空间位置相关联，使得视频中的不同物体给用户带来不同感知，从而获得更好的用户体验。

应理解，上述视频码流为服务器对源视频数据进行编码后得到的码流，其中可以包括编码单元CU、辅助增强信息SEI等，而上述视频文件是用于描述该源视频数据(或者还包括该视频码流)的全部或部分文件，具体可以包括媒体文件格式、媒体呈现描述MPD等。

结合第一方面，在第一方面的某些实现方式中，所述服务器将所述感知属性信息和所述空间位置信息添加到视频码流或视频文件，包括：所述服务器确定所述至少一个物体中目标物体的语法元素，所述语法元素用于表示所述目标物体的感知属性信息和所述目标物体的空间位置信息；所述服务器将所述语法元素编码到与所述目标物体对应的编码单元CU语法结构体或辅助增强信息SEI中，获得所述视频码流。

具体地，针对上述至少一个目标物体中某个特定的物体，以目标物体为例，服务器可以确定该目标物体的感知属性信息和空间位置信息，进一步确定其对应的语法元素，将该语法元素添加到与该目标物体对应的CU或SEI中，进行编码。

这样，终端设备在对视频码流进行解码的时候，可以从该目标物体对应的CU或SEI中获取该目标物体的感知属性信息和空间位置信息，进而对该目标物体的感知属性进行解析渲染。

结合第一方面，在第一方面的某些实现方式中，所述服务器将所述感知属性信息和所述空间位置信息添加到视频码流或视频文件，包括：所述服务器确定所述至少一个物体中目标物体的语法元素，所述语法元素用于表示所述目标物体的感知属性信息和所述目标物体的空间位置信息；所述服务器将所述语法元素添加到所述视频文件的媒体文件格式或媒体呈现描述MPD中。

具体地，针对上述至少目标一个物体中某个特定的物体，以目标物体为例，服务器可以确定该目标物体的感知属性信息和空间位置信息，进一步确定其对应的语法元素，将该语法元素添加到媒体文件格式或MPD中。此时，对应的视频文件可以进行编码，也可以不进行编码，本申请实施例对此不作限定。

这样，终端设备在进行解码的时候可以从视频文件的媒体文件格式或MPD中获取该目标物体的感知属性信息和空间位置信息，进而对该目标物体的感知属性进行解析渲染。

结合第一方面，在第一方面的某些实现方式中，所述至少一个物体的空间位置信息包括所述至少一个物体与感知属性信息捕获装置之间的距离度量值；所述至少一个物体的感知属性信息包括下列信息中的至少一种：所述至少一个物体的气味码、所述至少一个物体的气味最大强度、所述至少一个物体的触感码以及所述至少一个物体的触感最大强度，其中，所述气味码用于表示所述至少一个物体散发的气味类型，所述触感码用于表示所述至少一个物体被碰触时用户的触感类型。

结合第一方面，在第一方面的某些实现方式中，所述视频码流或所述视频文件包括标志位，所述标志位用于表示所述至少一个物体的所述感知属性信息是否需要被解析。

具体地，上述视频码流或视频文件中还可以携带用于表示该至少一个物体的感知属性信息是否需要被解析的标志位，该终端设备可以基于该标志位确定是否需要解析视频码流或视频文件中的感知属性信息。

结合第一方面，在第一方面的某些实现方式中，所述标志位包括在所述视频码流的头结构中；或所述标志位包括在所述视频码流的所述感知属性信息中；或所述标志位包括在所述视频文件的盒子box中。

第二方面，提供了另一种视频处理方法，包括：终端设备获取视频码流或视频文件，所述视频码流或所述视频文件中携带至少一个物体的感知属性信息和所述至少一个物体的空间位置信息，所述感知属性信息用于表示所述至少一个物体在被用户感知时所呈现出的性质，其中，所述视频码流为对源视频数据编码后生成的，所述视频文件用于描述所述源视频数据的视频属性；所述终端设备获得所述视频码流或所述视频文件中至少一个目标物体的感知属性信息和所述至少一个目标物体的空间位置信息，所述至少一个物体包括所述至少一个目标物体；所述终端设备基于所述用户的行为，结合所述至少一个目标物体的感知属性信息和所述至少一个目标物体的空间位置信息，对所述至少一个目标物体的感知属性进行感知渲染。

具体地，终端设备可以从服务器或者从自身的存储器处获取携带有至少一个物体的感知属性信息和空间位置信息的视频码流或视频文件，该终端设备从该至少一个物体中确定当前需要解析的至少一个目标物体，并获取该至少一个目标物体的感知属性信息和空间位置信息，结合用户的行为对该至少一个目标物体的感知属性进行渲染。

应理解，终端设备可以获取该视频码流或视频文件中全部物体的感知属性信息和空间位置信息，也可以基于用户的视角，仅获取上述该用户视角内的目标物体的感知属性信息和空间位置信息，本申请实施例对此不作限定。

结合第二方面，在第二方面的某些实现方式中，所述终端设备获得所述视频码流或所述视频文件中至少一个目标物体的感知属性信息和所述至少一个目标物体的空间位置信息，包括：所述终端设备对所述视频码流进行解码，从与所述至少一个目标物体对应的编码单元CU语法结构体或辅助增强信息SEI中，获取所述至少一个目标物体的感知属性信息和所述至少一个目标物体的空间位置信息；或所述终端设备对所述视频文件进行解封装，从所述视频文件的媒体文件格式或媒体呈现描述MPD中，获取所述至少一个目标物体的感知属性信息和所述至少一个目标物体的空间位置信息。

结合第二方面，在第二方面的某些实现方式中，所述至少一个物体的空间位置信息包括所述至少一个物体与感知属性信息捕获装置之间的距离度量值；所述至少一个物体的感知属性信息包括下列信息中的至少一种：所述至少一个物体的气味码、所述至少一个物体的气味最大强度、所述至少一个物体的触感码以及所述至少一个物体的触感最大强度，其中，所述气味码用于表示所述至少一个物体散发的气味类型，所述触感码用于表示所述至少一个物体被碰触时用户的触感类型。

结合第二方面，在第二方面的某些实现方式中，所述终端设备基于所述用户的行为，结合所述至少一个目标物体的感知属性信息和所述至少一个目标物体的空间位置信息，对所述至少一个目标物体的感知属性进行感知渲染，包括：所述终端设备根据所述用户的当前位置、所述至少一个目标物体中第一目标物体的空间位置信息以及所述第一目标物体的气味最大强度，确定所述第一目标物体在所述用户的当前位置处的气味强度值；所述终端设备散发与所述气味强度值和所述第一目标物体的气味码对应的气味。

结合第二方面，在第二方面的某些实现方式中，所述终端设备基于所述用户的行为，结合所述至少一个目标物体的感知属性信息和所述至少一个目标物体的空间位置信息，对所述至少一个目标物体的感知属性进行感知渲染，包括：所述终端设备根据所述用户的触碰点的当前位置、所述至少一个目标物体中第二目标物体的空间位置信息以及所述第二目标物体的触感最大强度，确定所述第二目标物体在所述用户的触碰点处的触碰强度值；所述终端设备向所述用户反馈与所述触碰强度值和所述第二目标物体的触感码对应的触觉感知。

结合第二方面，在第二方面的某些实现方式中，所述视频码流或所述视频文件包括标志位，所述标志位用于表示所述至少一个物体的所述感知属性信息是否需要被解析；在所述终端设备基于用户的视角以及所述视频码流或所述视频文件，获得所述用户当前视角内的至少一个目标物体的感知属性信息之前，包括：所述终端设备根据所述标志位，确定是否需要对所述至少一个物体的感知属性信息进行解析。

结合第二方面，在第二方面的某些实现方式中，所述标志位包括在所述视频码流的头结构中；或所述标志位包括在所述视频码流的所述感知属性信息中；或所述标志位包括在所述视频文件的盒子box中。

第三方面，提供了一种视频处理装置，用于执行第一方面或第一方面任意可能的实现方式中的方法。具体地，该装置包括用于执行上述第一方面或第一方面的任一种可能的实现方式中的方法的单元。

第四方面，提供了另一种视频处理装置，用于执行第二方面或第二方面任意可能的实现方式中的方法。具体地，该装置包括用于执行上述第二方面或第二方面的任一种可能的实现方式中的方法的单元。

第五方面，本申请实施例提供另一种视频处理装置，包括：相互耦合的非易失性存储器和处理器，所述处理器调用存储在所述存储器中的程序代码以执行上述第一方面或第一方面的任一种可能的实现方式中的方法的部分或全部步骤。

第六方面，本申请实施例提供另一种视频处理装置，包括：相互耦合的非易失性存储器和处理器，所述处理器调用存储在所述存储器中的程序代码以执行上述第二方面或第二方面的任一种可能的实现方式中的方法的部分或全部步骤。

第七方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

第八方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

应理解，本申请的第二至第八方面及对应的实现方式所取得的有益效果参见本申请的第一方面及对应的实现方式所取得的有益效果，不再赘述。

附图说明

图1是本申请实施例的一种可能的应用场景的示意图；

图2是本申请实施例的视频处理方法的示意性流程图；

图3是本申请实施例的另一视频处理方法的示意性流程图；

图4是本申请实施例的视频处理装置的示意性框图；

图5是本申请实施例的另一视频处理装置的示意性框图；

图6是本申请实施例的另一视频处理装置的示意性框图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

为了更好地理解本申请实施例的视频处理方法，下面先对相关的一些基本概念进行简单介绍。

人体感知：指的是人对外界环境的感觉，例如，视觉、嗅觉、听觉、触觉等。在观看普通视频时，终端设备只触发我们使用视觉和听觉来感知视频内容，例如，在观看视频中，可以在屏幕上看到视频图像以及在扬声器中听到音频。对于在观看视频时触发人体的其他感觉，如嗅觉和触觉，已经在一些视频应用中使用，例如，在某些私人影院中存在定制的喷水系统，当观看电影中某些场景如下雨时，喷水系统会随之喷洒雾水，给观看者带来水雾扑面的体验，触发观看者的触觉。

在上述的应用场景中，一种可能的实现方式是根据视频中针对下雨这种特定场景的图像出现的时刻，将场景触发信息编码到码流中；当视频播放到当前时刻时，解码码流中的场景信息，控制喷水系统进行雾水喷洒，从而触发用户触觉。

物体的感知属性：指的是该物体在被人体感知时所呈现出来的性质，例如，外观(视觉感知属性)、气味(嗅觉感知属性)、发声(听觉感知属性)、触感(触觉感知属性)等。

全景视频：本文中指虚拟现实(virtual reality，VR)全景视频，又称360度全景视频或360视频，一种用多摄像机进行全方位360度进行拍摄的视频，用户在观看该视频的时候，可以随意调节视频上下左右进行观看。其图像信号可以虚拟为一种球面信号，然而，虚拟的球面图像信号无法直观地被人眼所见，因此需要将三维的球面图像信号表示为二维平面图像信号。最常用的直观图像格式为经纬图。该图像的采集方式是，水平方向上根据经度角对球面图像信号均匀采样，垂直方向上根据纬度角进行均匀采样，这样获得的二维映射图像。

应理解，在全景视频应用中，用户可以按照自己的想法以不同的视角方向来观看视频，当前看到的视频内容与用户的视角方向有关。终端设备进行视频渲染时按照视角所在方位渲染部分球面视频给用户观看。

3D全景视频：本文中指的是3D格式的VR全景视频，该视频包括两路360度全景视频，一路用于左眼显示，一路用于右眼显示，两路视频在同一帧中为左眼和右眼显示的内容有些许差异，使用户在观看时出现3D效果。

经纬图：全景图像格式的一种，将球面信号按照经度和纬度均匀采样映射获得的能够用于保存和传输的二维全景图像。该图像的横纵坐标可以用经纬度来表示，宽度方向上可用经度表示，跨度为360°；高度方向上可用纬度表示，跨度为180°。

视频解码(video decoding)：将视频码流按照特定的语法规则和处理方法恢复成重建图像的处理过程。

视频编码(video encoding)：将图像序列压缩成码流的处理过程；

视频编码(video coding)：视频编码video encoding和视频解码video decoding的统称，中文译名和video encoding相同。为便于区分，本文将视频编码和视频解码统称为视频处理。

编码单元(coding unit，CU)：通常对应于一个A×B的图像矩形区域，包含A×B亮度像素和它对应的色度像素，A为矩形的宽，B为矩形的高，A和B可以相同，也可以不同，A和B的取值通常为2的整数次幂，例如，256、128、64、32、16、8、4。一个编码单元可通过解码处理解码得到一个A×B的矩形区域的重建图像，解码处理通常包括预测、反量化、反变换等处理，从而产生预测图像和残差，对该预测图像和残差叠加后可以得到重建图像。

样本(sample)：sample在标准ISO/IEC 14496-12中的定义为“all the dataassociated with a single timestamp”，翻译为“关联在单个时间戳的所有数据”，一般指的是视频的一帧数据，以解码顺序排列的一系列视频帧，或者以解码顺序排列的音频压缩分段。

轨迹(track)：track在标准ISO/IEC 14496-12中的定义为“timed sequence ofrelated samples(q.v.)in an ISO base media file.NOTE：For media data,a trackcorresponds to a sequence of images or sampled audio；for hint tracks,a trackcorresponds to a streaming channel”，翻译为“ISO媒体文件中相关样本的时间属性序列。注：对于媒体数据，一个track就是个图像或者音频样本序列；对于提示轨迹，一个轨迹对应一个流频道”。具体而言，track是指一系列有时间属性的按照ISO基本媒体文件格式(ISO base media file format，ISOBMFF)的封装方式的样本，例如，视频track，视频样本是视频编码器编码每一帧后产生的码流，按照ISOBMFF的规范对所有的视频样本进行封装产生样本。

盒子(box)：box在ISO/IEC 14496-12标准中的定义为“object-orientedbuilding block defined by a unique type identifier and length.NOTE：Called‘atom’in some specifications,including the first definition of MP4”，翻译为“面向对象的构建块，由唯一的类型标识符和长度定义。注：在某些规范中称为“原子”，包括MP4的第一个定义”，box是构成ISOBMFF文件的基本单元，box可以包含其他的box。

辅助增强信息(supplementary enhancement information，SEI)：视频编解码标准(h.264，h.265)中定义的一种网络接入单元(network abstract layer unit，NALU)的类型。

视频文件：用于描述源视频数据的视频属性，该视频属性具体可以为源视频数据的每一帧图像的宽和高、源视频数据的格式等等。视频文件具体可以包括媒体呈现描述、媒体文件格式，还可以包括其他文件，本申请实施例对此不作限定。

媒体呈现描述(media presentation description，MPD)：标准ISO/IEC 23009-1中规定的一种文档，在该文档中包含了客户端构造HTTP-URL的元数据。在MPD中包含一个或者多个周期(period)元素，每个period元素包含有一个或者多个自适应集(adaptationset)，每个adaptation set中包含一个或者多个表示(representation)，每个representation中包含一个或者多个分段。客户端根据MPD中的信息，选择表达，并构建分段的HTTP-URL。

媒体文件格式：由一系列的box组成，在box中可以包含其他的box。在这些box中包含元数据box和媒体数据box，元数据box(moov box)中包含的是元数据，媒体数据box(mdatbox)中包含的是媒体数据。元数据的box和媒体数据的box可以是在同一个文件中，也可以是在分开的文件中。媒体文件格式可以包括ISO基本媒体文件格式(ISO base media fileformat，ISOBMFF)，还可以包括其他类型的媒体文件格式。

现有的一种基于嗅觉信息的传送方法主要应用于传统信号传输系统中，在某段时间内，使用气味传感器将当前时刻的气味进行捕获，生成气味信息码；然后将该码流发送至客户端，客户端通过获取到的所述气味信息码，进行解码并处理获得气味信息，然后散发该信息对应的气味。

上述方法仅对当前环境中的所有气味进行信号编码传输，这些气味信息仅与编码的时间段有关，与视频内容中的物体位置无关。因此，这种方法无法将气味信息与视频中的物体或者是视频内容结合起来，观看者可能会因此嗅到与观看到的视频内容无关的气味，影响用户的观看体验。特别是，当观看的视频中存在三维空间信息时，如全景视频，这种技术无法使得视频中的不同物体或内容给人带来不同感知，严重影响了全景视频带来的沉浸式体验。

有鉴于此，本申请提出了一种新的视频处理方法，通过将除了视觉和听觉之外的其他人体感知属性表示在视频码流或视频文件中，并将物体的感知属性与物体在视频中的空间位置相关联，使得视频中的不同物体给用户带来不同感知，从而获得更好的用户体验。

图1是本申请实施例的一种可能的应用场景的示意图。

如图1所示，应用场景100包括感知属性信息捕获装置、服务器和终端设备。其中，感知属性信息捕获装置用于捕获感知属性信息，生成源视频数据，具体可以包括摄像头、传感器等；服务器从感知属性信息捕获装置处获取源视频数据，并对该源视频数据进行编码，获得待传输或待保存的视频码流；终端设备可以从服务器处获取视频码流，并对该视频码流进行解码处理。

可选地，上述感知属性信息捕获装置可以包括视频捕获装置、音频捕获装置、气味捕获装置、触觉传感装置等与捕获人体感知信息相关的装置。上述服务器可以包括存储器、视频编码器、码流封装装置以及发送传输装置。上述终端设备可以包括接收装置、码流解封装装置、视频解码器以及感知渲染装置。

可选地，上述视频编码器可以包括感知属性信息编码器，用于对感知属性信息进行编码，上述视频解码器可以包括感知属性信息解码器，用于对感知属性信息进行解码，这样，可以实现物体的感知属性信息与编码后的源视频数据的独立编解码。

具体地，感知属性信息捕获装置可以将捕获的源视频数据发送给服务器，服务器可以将源视频数据保存在存储器中，也可以直接采用视频编码器对该源视频数据进行编码，然后采用码流封装装置对编码后的视频码流进行封装，再将封装后的视频码流输送至存储器或者发送传输装置。应理解，服务器可以将封装后的视频码流保存在服务器上，也可以通过发送传输装置主动将封装后的视频码流传输至终端设备，本申请实施例对此不作限定。终端设备通过接收装置接收到封装后的视频码流，采用码流解封装装置对该视频码流进行解封装处理，然后采用视频解码器对该视频码流进行解码处理，最后通过感知渲染装置对码流中的感知属性信息进行感知渲染。应理解，感知渲染装置是将解码后的感知属性信息进行还原重现的装置，具体可以包括音视频播放装置、气味散发装置、触觉模拟装置等。

还应理解，上述服务器可以为编码端设备，这里的编码端设备具体可以是视频编码器、具有编码视频功能的设备等；上述终端设备可以为解码端设备，这里的解码端设备具体可以是视频解码器、具有解码视频功能的设备、视频播放器(例如，能够处理多媒体数据的电子设备)等等，本申请实施例对此不作限定。上述服务器和终端设备的具体产品形态可以包括：计算机、移动设备(如手机、平板电脑)、可穿戴设备等等，本申请实施例对此不作限定。

图2是本申请实施例的视频处理方法的示意性流程图。图2所示的方法可以应用于上述应用场景100中，且该方法200可以由上述服务器执行，但本申请实施例不限于此。

S210，服务器获取源视频数据；

S220，所述服务器确定所述源视频数据中需要对感知属性信息进行编码的至少一个物体，所述感知属性信息用于表示所述至少一个物体在被用户感知时所呈现出的性质；

S230，所述服务器获取所述至少一个物体的所述感知属性信息和所述至少一个物体的空间位置信息；

S240，所述服务器将所述感知属性信息和所述空间位置信息添加到对所述源视频数据编码后生成的视频码流中或所述源视频数据的视频文件中，其中，所述视频文件用于描述所述源视频数据的视频属性；

S250，所述服务器对所述视频码流或所述视频文件进行封装。

具体地，服务器可以从感知属性信息捕获装置处获得源视频数据，并确定该源视频数据中需要进行感知属性信息编码的至少一个物体，该服务器从感知属性信息捕获装置处获取该至少一个物体的感知属性信息和空间位置信息。其中，感知属性信息即为表示物体的感知属性的信息，具体用于表示物体在被用户感知时所呈现出的性质，例如，嗅觉、触觉等。空间位置信息用于表示物体在视频中的空间位置，以全景视频为例，物体的空间位置信息为物体在以感知属性信息捕获装置为球心的坐标系内的三维位置坐标，具体可以结合物体在经纬图的二维坐标和物体与上述感知属性捕获装置之间的距离计算得到，但本申请实施例对此不作限定。

上述服务器在获得了需要编码感知属性的物体的感知属性信息和空间位置信息之后，将物体的感知属性信息和对应的空间位置信息进行关联，添加到与该源视频数据对应的视频码流或视频文件中，然后对携带有感知属性信息和空间位置信息的视频码流或视频文件进行封装。

因此，本申请实施例的视频处理方法，通过将除了视觉和听觉之外的其他人体感知属性表示在视频码流或视频文件中，并将物体的感知属性与物体的空间位置相关联，使得视频中的不同物体给用户带来不同感知，从而获得更好的用户体验。

应理解，上述视频码流为服务器对源视频数据进行编码后得到的码流，其中可以包括编码单元CU、辅助增强信息SEI等，而上述视频文件是用于描述该视频码流的全部或部分文件，具体可以包括媒体文件格式、媒体呈现描述MPD等。

还应理解，服务器在对携带感知属性信息和空间位置信息的视频码流或视频文件进行封装之后，可以先将其保存下来，等待终端设备请求的时候再将其发送给终端设备，也可以直接将封装后的视频码流或视频文件发送给终端设备，本申请实施例对此不作限定。

图3是本申请实施例的视频处理方法的示意性流程图。图3所示的方法可以应用于上述应用场景100中，且该方法300可以由上述终端设备执行，但本申请实施例不限于此。

S310，终端设备获取视频码流或视频文件，所述视频码流或所述视频文件中携带至少一个物体的感知属性信息和所述至少一个物体的空间位置信息，所述感知属性信息用于表示所述至少一个物体在被用户感知时所呈现出的性质，其中，所述视频码流为对源视频数据编码后生成的，所述视频文件用于描述所述源视频数据的视频属性；

S320，所述终端设备获得所述视频码流或所述视频文件中至少一个目标物体的感知属性信息和所述至少一个目标物体的空间位置信息，所述至少一个物体包括所述至少一个目标物体；

S330，所述终端设备基于所述用户的行为，结合所述至少一个目标物体的感知属性信息和所述至少一个目标物体的空间位置信息，对所述至少一个目标物体的感知属性进行感知渲染。

本申请实施例的视频处理方法，通过将除了视觉和听觉之外的其他人体感知属性表示在视频码流或视频文件中，并将物体的感知属性与物体在视频中的空间位置相关联，使得视频中的不同物体给用户带来不同感知，从而获得更好的用户体验。

作为一个可选的实施例，所述服务器将所述感知属性信息和所述空间位置信息添加到视频码流或视频文件，包括：

所述服务器确定所述至少一个物体中目标物体的语法元素，所述语法元素用于表示所述目标物体的感知属性信息和所述目标物体的空间位置信息；

所述服务器将所述语法元素编码到与所述目标物体对应的编码单元CU语法结构体或辅助增强信息SEI中，获得所述视频码流。

则对应地，所述终端设备获得所述视频码流或所述视频文件中至少一个目标物体的感知属性信息和所述至少一个目标物体的空间位置信息，包括：

所述终端设备对所述视频码流进行解码，从与所述至少一个目标物体对应的编码单元CU语法结构体或辅助增强信息SEI中，获取所述至少一个目标物体的感知属性信息和所述至少一个目标物体的空间位置信息。

具体地，针对上述至少一个目标物体中某个特定的目标物体为例，服务器可以确定该目标物体的感知属性信息和空间位置信息，进一步确定其对应的语法元素，将该语法元素添加到与该目标物体对应的CU或SEI中，进行编码。

所述服务器将所述语法元素添加到所述视频文件的媒体文件格式或媒体呈现描述MPD中。

所述终端设备对所述视频文件进行解封装，从所述视频文件的媒体文件格式或媒体呈现描述MPD中，获取所述至少一个目标物体的感知属性信息和所述至少一个目标物体的空间位置信息。

作为一个可选的实施例，所述至少一个物体的空间位置信息包括所述至少一个物体与感知属性信息捕获装置之间的距离度量值；

所述至少一个物体的感知属性信息包括下列信息中的至少一种：

所述至少一个物体的气味码、所述至少一个物体的气味最大强度、所述至少一个物体的触感码以及所述至少一个物体的触感最大强度，其中，所述气味码用于表示所述至少一个物体散发的气味类型，所述触感码用于表示所述至少一个物体被碰触时用户的触感类型。

具体地，上述空间位置信息可以包括物体与感知信息捕获装置之间的距离度量值，除此之外还可以包括物体结合物体的在经纬图的二维坐标，终端设备可以结合该二维坐标和该距离度量值计算得到该物体在以感知属性信息捕获装置为球心的坐标系内的三维位置坐标。上述感知属性信息包括嗅觉感知属性信息和触觉感知属性信息，具体可以包括物体的气味码、该物体的气味最大强度、该物体的触感码、该物体的触感最大强度等等，但本申请实施例对此不作限定。

作为一个可选的实施例，所述终端设备基于所述用户的行为，结合所述至少一个目标物体的感知属性信息和所述至少一个目标物体的空间位置信息，对所述至少一个目标物体的感知属性进行感知渲染，包括：

所述终端设备根据所述用户的当前位置、所述至少一个目标物体中第一目标物体的空间位置信息以及所述第一目标物体的气味最大强度，确定所述第一目标物体在所述用户的当前位置处的气味强度值；

所述终端设备散发与所述气味强度值和所述第一目标物体的气味码对应的气味。

在上述感知属性信息包括嗅觉感知属性信息的情况下，以第一目标物体为例，终端设备可以先计算出该第一目标物体的三维位置坐标，再结合该第一目标物体的三维位置坐标和用户的当前位置，计算出该第一目标物体与用户之间的距离，结合该距离与该第一目标物体的气味最大强度，即可计算出该第一目标物体在该用户当前位置处的气味强度值。该终端设备根据该第一目标物体的气味码，就可以散发出与该气味码和气味强度值对应的气味。

所述终端设备根据所述用户的触碰点的当前位置、所述至少一个目标物体中第二目标物体的空间位置信息以及所述第二目标物体的触感最大强度，确定所述第二目标物体在所述用户的触碰点处的触碰强度值；

所述终端设备向所述用户反馈与所述触碰强度值和所述第二目标物体的触感码对应的触觉感知。

同理，在上述感知属性信息包括触觉感知属性信息的情况下，以第二目标物体为例，终端设备可以先计算出该第二目标物体的三维位置坐标，再结合该第二目标物体的三维位置坐标和用户的当前位置，计算出该第二目标物体与用户之间的距离，结合该距离与该第二目标物体的触感最大强度，即可计算出该第二目标物体在该用户当前位置处的触碰强度值。该终端设备根据该第二目标物体的触感码，就可以向用户反馈出与该触感码和触碰强度值对应的触感。

作为一个可选的实施例，所述视频码流或所述视频文件包括标志位，所述标志位用于表示所述至少一个物体的所述感知属性信息是否需要被解析；

在所述终端设备基于用户的视角以及所述视频码流或所述视频文件，获得所述用户当前视角内的至少一个目标物体的感知属性信息之前，包括：

所述终端设备根据所述标志位，确定是否需要对所述至少一个物体的感知属性信息进行解析。

作为一个可选的实施例，所述标志位包括在所述视频码流的头结构中；或

所述标志位包括在所述视频码流的所述感知属性信息中；或

所述标志位包括在所述视频文件的盒子box中。

为便于理解，下面结合具体实施例对本申请进行详细说明。

实施例一、感知属性信息携带在视频码流中

服务器侧

步骤一：服务器获得视频捕获装置所捕获的全景源视频数据，并针对场景中需要编码感知属性的物体，获得视频捕获装置捕获的物体的感知属性信息以及物体的空间位置信息。应理解，视频中需要编码感知属性的物体一般是提前配置的。

可选地，在本申请实施例中，可以将气味捕获装置和/或触觉传感装置放置于物体处来捕获物体的感知属性，同时获取每个物体相对于气味捕获装置和/或触觉传感装置的空间位置信息。

步骤二：对源视频数据进行编码，同时将视频中物体的感知属性信息和空间位置信息编入视频码流。具体地，针对某一个特定的物体而言，使用步骤一中获得的该物体的空间位置信息，可得到该物体在视频中对应的位置或对应的图像块；在对应的位置或图像块进行编码时，将该物体的感知属性信息同时编入视频码流。

一种可选的编码方式是，将代表感知属性的语法元素编码到图像编码单元(coding unit，CU)的语法结构体中，如表一和表二所示。

表一编码单元语法结构体coding_unit()

表二编码单元感知属性语法结构体cu_sensation_info()

其中，新增的关于物体感知属性信息的语法结构体为cu_sensation_info()，该语法结构体中包括的物体感知属性语法元素与语义解释如下：

object_distance[x0][y0]：表示位于图像坐标点(x0,y0)处CU中的物体在拍摄时与视频捕获装置之间的距离度量值，即物体距离全景球心的度量值。默认度量单位可以为标准国际度量单位米(m)/千米(km)。坐标点(x0,y0)指的是CU的亮度像素块左上角坐标相对于图像亮度样本左上角的坐标。

scent_code[x0][y0]：表示位于图像坐标点(x0,y0)处CU中物体的气味码。该气味码的取值可以是数值0,1,2,…，分别代表不同物体发出的不同气味，该值与物体本身的材料和结构有关。

scent_maximum_strength[x0][y0]：表示位于图像坐标点(x0,y0)处CU中物体散发出的气味最大强度。

tactility_code[x0][y0]：表示位于图像坐标点(x0,y0)处CU中物体的触感码。该触感码的取值可以是数值0,1,2,…，分别代表不同物体在被触碰时人体的不同触感类型。

tactility_maximum_strength[x0][y0]：表示位于图像坐标点(x0,y0)处CU中物体的触感最大强度。

步骤三：服务器将视频码流送入封装器进行满足传输需求的封装，保存在服务器上；或者，该服务器在对视频码流进行封装之后，通过发送传输装置将封装后的视频码流发送给终端设备。

终端设备侧

步骤一：终端设备获取封装后的视频码流，该视频码流携带物体的感知属性信息和空间位置信息。

可选地，终端设备可以向服务器请求携带有物体的感知属性信息和空间位置信息的视频码流；或者，终端设备可以直接接收服务器发送的该视频码流；或者，终端设备存储了该视频码流，从存储器中获取，本申请实施例对此不作限定。

步骤二：终端设备将封装后的视频码流送入码流解封装装置，进行解封装，输出适合视频解码器解码的视频码流。

步骤三：终端设备对该视频码流进行视频解码，同时解得码流中的物体感知属性与物体的空间位置信息。该终端设备(具体可以为其中的视频播放器)可以根据用户的视角以及用户的行为，对该视频进行渲染，并基于物体的空间位置信息，将物体的感知属性进行感知信息渲染。

具体地，针对前述服务器进行感知信息编码方式获得的视频码流，终端设备的解码渲染过程如下：

1、解析该视频码流中的所有CU，获得每个CU中的物体感知属性语法元素的向量变量值，具体可以包括上述object_distance、scent_code、scent_maximum_strength、tactility_code、tactility_maximum_strength。

2、根据用户的视角，获得用户当前视角下需要渲染的视频内容，计算用户当前视角内的视频内容在视频图像中的位置和范围，获得所有位于用户当前视角内的物体的感知属性值，即物体的感知属性语法元素的向量变量值。

可选地，终端设备可以根据用户的视角仅解析用户当前视角内对应视频中的CU语法元素，则可直接获取到所有位于用户当前视角内的物体的感知属性值。本申请实施例对于终端设备获取所需CU中每个物体的感知属性语法元素的向量变量值的方式不作限定。

3、基于用户的行为，对物体感知属性进行渲染。

针对嗅觉信息渲染，一种可选的方法是，当用户看到视角内的某个物体，根据物体的距离信息object_distance(以变量d表示)以及物体在视频中的位置信息(x0,y0)，可以计算获得该物体在以视频捕获装置为球心的坐标系内的三维位置坐标(x1,y1,z1)。例如，视频使用经纬图格式表示，且经度范围为[-180°,180°]，坐标轴方向从左至右，纬度范围为[-90°,90°]，坐标轴方向从下至上，那么通过位置信息可以计算物体的经度角lon和纬度角lat：

其中，w和h分别为经纬图的宽高。从而，终端设备可以得到物体的坐标值如下：

终端设备再根据用户在视频中坐标系的坐标位置(x2,y2,z2)，可以算出用户与物体的距离。根据该距离值和物体的气味最大强度值scent_maximum_strength，计算发出气味的物体在用户位置(x2,y2,z2)处的强度值。一种可选的强度值计算方式如下：

其中，S为物体在用户位置处的强度值。

当气味渲染装置获得所述强度值，结合气味码scent_code，便可散发气味进行渲染，用户此时可以嗅到该物体发出的气味。

类似地，针对触觉信息渲染，一种可选的方法是，当用户与视频中的物体进行交互时，例如，触碰操作，播放器获得人体触碰点的三维坐标(x0,y0,z0)，并结合物体接触点在坐标系内的三维位置坐标(x1,y1,z1)，判断二者的接触关系，从而基于物体的触感最大强度值tactility_maximum_strength计算该物体的触碰强度。最后，终端设备可以结合该触碰强度与触感码tactility_code，使得触觉渲染装置渲染触觉感知，用户此时可以感受到对应的触觉。

作为一个可选的实施例，上述视频码流中可以包括标志位，用于表示视频码流中的物体的感知属性信息是否需要被解析。该标志位可以采用多种形式体现，具体可以分为下列几种情况。

情况一、在码流的头结构中加入一个标志位perception_enable_flag，可以控制物体的感知属性在码流中是否需要被解析。

具体地，上述头结构可以为视频参数集(video parameter set，VPS)、序列参数集(sequence parameter set，SPS)、图像参数集(picture parameter set，PPS)、sliceheader或slice segment header等，本申请实施例对此不作限定。服务器和终端设备可以预先约定该标志位的含义，终端设备按照约定的含义对该标志位进行解读。

可选地，如果此标志位在SPS和PPS中同时出现且不同，则PPS中的标志位生效，SPS中的标志位无效。如果此标志位在SPS和slice header中同时出现且不同，则slice header中的标志位生效，SPS中的标志位无效。如果此标志位在PPS和slice header中同时出现且不同，则slice header中的标志位生效，PPS中的标志位无效。如果此标志位在多层语法结构体中同时出现且不同，则最下层的语法结构体中的标志位生效，而上层语法结构体中的标志位无效。

在该标志位生效的情况下，perception_enable_flag为第一值(比如1)时表示与之相关的物体感知属性开关打开，对应物体感知属性可被解析；perception_enable_flag为第二值(比如0)时表示与之相关的物体感知属性开关关闭，对应的物体感知属性不可被解析。

此时，编码单元语法结构体coding_unit()可如表三所示。

表三编码单元语法结构体coding_unit()

其中，编码单元感知属性语法结构体cu_sensation_info()仍为表二所示，此处不再赘述。

在这种情况下，终端设备在解码的过程中，可以先解析标志位perception_enable_flag，然后根据perception_enable_flag的值来判断CU中标识的物体感知属性是否需要进行解析(perception_enable_flag为第一值)或不解析(perception_enable_flag为第二值)。若确定不解析或未解析到感知属性信息，播放器将不会进行感知渲染。

在情况一下，还可以通过在视频码流的头结构中加入标志位，以控制物体的不同感知属性信息在该视频码流中是否需要被解析。

具体地，针对嗅觉感知属性信息和触觉感知属性信息，可以在视频码流的头结构中分别加入标志位scent_perception_enable_flag，tactility_perception_enable_flag。同理，这些标志位可位于VPS、SPS、PPS、slice header或slice segment header中。

针对某一特定的标志位，如果此标志位在VPS和PPS中同时出现且不同，则SPS中的标志位生效，VPS中的标志位无效。如果此标志位在SPS和PPS中同时出现且不同，则PPS中的标志位生效，SPS中的标志位无效。如果此标志位在SPS和slice header中同时出现且不同，则slice header中的标志位生效，SPS中的标志位无效。如果此标志位在PPS和sliceheader中同时出现且不同，则slice header中的标志位生效，PPS中的标志位无效。如果此标志位在多层语法结构体中同时出现且不同，则最下层的语法结构体中的标志位生效，而上层语法结构体中的标志位无效。

在这些标志位生效的情况下，这些标志位的语法元素语义如下：

scent_perception_enable_flag为第一值(比如1)时表示与之相关的物体嗅觉感知属性开关打开，对应物体嗅觉感知属性可被解析；scent_perception_enable_flag为第二值(比如0)时表示物体嗅觉感知属性无法被解析。

tactility_perception_enable_flag为第一值(比如1)时表示与之相关的物体触觉感知属性开关打开，对应物体触觉感知属性可被解析；scent_perception_enable_flag为第二值(比如0)时表示物体触觉感知属性无法被解析。

编码单元语法结构体coding_unit()可如表一所示，此处不再赘述。

编码单元感知属性语法结构体cu_sensation_info()可如表四所示。

表四编码单元感知属性语法结构体cu_sensation_info()

在这种情况下，终端设备在解码的过程中，可以先解析标志位scent_perception_enable_flag和tactility_perception_enable_flag。然后根据它们的值，判断是否需要解析对应的感知属性信息。若需要，则分别对CU中标识的物体嗅觉感知属性以及触觉感知属性的信息进行解析。播放器将根据解析得到的内容，对相应的感知属性进行渲染或不渲染。

情况二、通过不同的感知属性码来控制物体的感知属性在码流中是否需要被解析。

编码单元感知属性语法结构体cu_sensation_info()可如表五所示。

表五编码单元感知属性语法结构体cu_sensation_info()

与情况一不同的是，将感知属性码用来作为判断物体的感知属性是否进行解析的条件。此时，编码单元感知属性语法结构体的语法元素的语义更改如下：

scent_code[x0][y0]：表示位于图像坐标点(x0,y0)处CU中物体的气味码。该气味码的取值可以是数值0,1,2,…，该气味码为0值时，表示在(x0,y0)处CU中物体的嗅觉感知属性不存在，不需要继续解析；该气味码不为0值时，分别代表不同物体发出的不同气味，该值与物体本身的材料和结构有关，解码器将进行物体的嗅觉感知属性解析。

tactility_code[x0][y0]：表示位于图像坐标点(x0,y0)处CU中物体的触感码。该触感码可以是数值0,1,2,…，该触感码为0值时，表示在(x0,y0)处CU中物体的触觉感知属性不存在，不需要继续解析；该触感码不为0值时，分别代表不同物体在被触碰时人体的不同触感类型，解码器将进行物体的触觉感知属性解析。

应理解，由于CU中可能不存在需要解析感知属性的物体，当上述两者均为0值时，终端设备可以不再解析语法元素object_distance[x0][y0]；若两者之中有一个不为0，则该终端设备需要解析语法元素object_distance[x0][y0]。

实施例二、感知属性信息携带在辅助增强信息SEI中

本实施例与实施例一的步骤相同，主要不同之处是将感知属性信息编码到视频码流中的方式不同。实施例一中将用于表示感知属性信息的语法元素编码到图像CU的结构体中，而本实施例则是将用于表示感知属性信息的语法元素编码到SEI中，如表六所示。

表六总SEI语法

表七感知信息SEI语法sensation_info()

其中，SEI语法结构体sensation_info()包含的语法元素语义解释如下：

sensation_object_rect_cnt_minus1：其值表示当前视频帧中包含的可被感知的物体个数减1。

sensation_object_rect_left[i]：表示在视频图像中标识第i个可被感知的物体的矩形框最左边的水平方向坐标值。

sensation_object_rect_top[i]：表示在视频图像中标识第i个可被感知的物体的矩形框最上边的垂直方向坐标值。

sensation_object_rect_right[i]：表示在视频图像中标识第i个可被感知的物体的矩形框最右边的水平方向坐标值。

sensation_object_rect_bottom[i]：表示在视频图像中标识第i个可被感知的物体的矩形框最下边的垂直方向坐标值。

object_distance[i]：表示图像中第i个可被感知的物体在拍摄时与视频捕获装置之间的距离度量值，即物体距离全景球心的度量值。默认度量单位可以为标准国际度量单位米(m)/千米(km)。

scent_code[i]：表示图像中第i个可被感知的物体的气味码。该气味码的取值可以是数值0,1,2,…，分别代表不同物体发出的不同气味，该值与物体本身的材料和结构有关。

scent_maximum_strength[i]：表示图像中第i个可被感知的物体散发出的气味最大强度。

tactility_code[i]：表示图像中第i个可被感知的物体的触感码。该触感码的取值可以是数值0,1,2,…，分别代表不同物体在被触碰时人体的不同触感类型。

tactility_maximum_strength[i]：表示图像中第i个可被感知的物体的触感最大强度。

对于终端设备而言，相对于实施例一，在解码和渲染过程中的不同之处主要在于，不需要通过解析图像中的CU语法结构体来获得物体的感知属性、空间位置信息等，而是通过解析视频码流中的SEI来获得。

作为一个可选的实施例，在SEI中，也可以通过不同的感知属性码来控制物体感知属性是否被解析。因此，语法结构体sensation_info()的表示可如表八所示。

表八感知信息SEI消息语法sensation_info()

本例中，相对于表七，有语义变化的语法元素解释如下：

scent_code[i]：表示图像中第i个可被感知的物体的气味码。该气味码的取值可以是数值0,1,2,…，该气味码为0值时表示第i个可被感知的物体嗅觉感知属性不存在，不需要继续解析；该气味码不为0值时分别代表不同物体发出的不同气味，该值与物体本身的材料和结构有关，解码器将进行物体的嗅觉感知属性解析。

tactility_code[i]：表示图像中第i个可被感知的物体的触感码。该触感码的取值可以是数值0,1,2,…，该触感码为0值时表示第i个可被感知的物体触觉感知属性不存在，不需要继续解析；该触感码不为0值时分别代表不同物体在被触碰时人体的不同触感类型，解码器将进行物体的触觉感知属性解析。

应理解，在本申请实施例中，SEI是针对整个视频码流的，由于其中存在sensation_object_rect_cnt_minus1，即至少存在一个需要被感知属性的物体，scent_code[i]和tactility_code[i]这两个元素一般不会同时为0值。

实施例三、感知属性信息携带在媒体文件格式中

服务器侧

步骤二：服务器对源视频数据进行编码，同时针对物体的不同感知信息进行处理，保存为编码或非编码的二进制数据流。在这里，可以针对不同的感知属性分别组织二进制数据流，即每个属性生成一个二进制数据流。

步骤三：服务器将这些二进制数据流送入封装器进行封装，保存在服务器上；或者，通过发送传输装置将封装后的文件发送给终端设备。封装方式可以是以媒体文件方式封装，也可以是以适用于网络传输的方式进行封装，本申请实施例对此不作限定。

在一种可能的实现方式中，将感知属性信息的二进制数据流封装到文件中样本(sample)数据的方式可如下所示。

针对嗅觉感知属性的结构体添加ScentSample语法结构：

其中，语法元素的语义解释如下：

rect_left表示对应视频图像中第i个可被进行感知的物体的矩形框最左边的水平方向坐标值。

rect_top表示对应视频图像中第i个可被进行感知的物体的矩形框最上边的垂直方向坐标值。

rect_right表示对应视频图像中第i个可被进行感知的物体的矩形框最右边的水平方向坐标值。

rect_bottom表示对应视频图像中第i个可被进行感知的物体的矩形框最下边的垂直方向坐标值。

object_distance表示对应视频图像中第i个可被进行感知的物体在拍摄时与视频捕获装置之间的距离度量值，即物体距离全景球心的度量值。默认度量单位可以为标准国际度量单位米(m)/千米(km)。

添加的结构体ScentInfoStruct中对应的语法元素语义如下：

scent_code表示对应视频图像中第i个可被进行嗅觉感知的物体的气味码。该气味码的取值可以是数值0,1,2,…，分别代表不同物体发出的不同气味，该值与物体本身材料和结构有关。

scent_maximum_strength指的是图像中第i个可被感知的物体散发出的气味最大强度。

针对触觉感知属性的结构体添加TactilitySample语法结构：

其中，rect_left，rect_top，rect_right，rect_bottom，object_distance语法元素语义与嗅觉感知属性的语法元素语义相同。添加的结构体TactilityInfoStruct中对应的语法元素语义如下：

tactility_code表示对应视频图像中第i个可被进行触觉感知的物体的触感码。该触感码的取值可以是数值0,1,2,…，分别代表不同物体在被触碰时人体的不同触感类型。

tactility_maximum_strength表示对应视频图像中第i个可被进行触觉感知的物体的触感最大强度。

终端设备侧

步骤一：终端设备获取封装后的视频码流和该视频码流对应的媒体文件格式，该媒体文件格式中携带物体的感知属性信息。

可选地，终端设备可以向服务器请求上述视频码流；或者，终端设备可以直接接收服务器发送的该视频码流；或者，终端设备存储了该视频码流，从存储器中获取，本申请实施例对此不作限定。

步骤二：终端设备将媒体文件格式送入码流解封装装置，进行解封装，输出适合解码器解码的数据流。在这一步骤中，针对前述服务器进行感知属性信息封装方式的媒体文件格式，解封装装置将获取该文件中封装的感知属性的样本，例如，前述的ScentSample以及TactilitySample。

步骤三：终端设备对解封装后的数据流进行解码与渲染。

具体地，终端设备可以针对步骤五中获得的感知属性的样本将进行解码，从而获得对应每帧视频中的每个物体的嗅觉感知属性信息和触觉感知属性信息，即前述的scent_code、scent_maximum_strength、tactility_code、tactility_maximum_strength等，并获得每个物体在视频图像中的位置rect_left、rect_top、rect_right、rect_bottom，以及物体的空间距离信息object_distance。终端设备可以采用与实施例一中类似的方式进行渲染播放，从而使用户感知到对应物体的感觉，此处不再赘述。

作为一个可选的实施例，服务器可以在封装后的视频文件中添加用于指示物体的感知属性信息是否存在的盒子(box)，具体可以采用下列几种情况。

情况一、在moov box中添加感知信息box类SensationInfoBox，用于描述视频文件中是否具有感知属性信息：

其中，scent_info为0表示视频文件中没有嗅觉感知属性信息，scent_info为1表示有；tactility_info为0表示视频文件中没有触觉感知属性信息，tactility_info为1表示有。

情况二、通过SensationInfoBox的version来表示当前box指示的是嗅觉感知属性信息或者指示的是触觉感知属性信息。

例如，定义如下SensationInfoBox：

aligned(8)class SensationInfoBox extends FullBox(‘snsa’,version,flags){

}

其中，version为第一值时(如1值)指示视频文件中带有嗅觉感知信息；version为第二值时(如2值)指示视频文件中带有触觉感知信息；version为第三值时(如3值)指示视频文件中带有觉和触觉感知信息。

情况三、通过SensationInfoBox的flags来表示当前box指示的是嗅觉感知属性信息或者指示的是触觉感知属性信息。

例如，定义如下SensationInfoBox：

aligned(8)class SensationInfoBox extends FullBox(‘snsa’,version,flags){

}

其中，flags为第一值时(如1值)指示视频文件中带有嗅觉感知信息；flags为第二值时(如2值)指示视频文件中带有触觉感知信息；flags为第三值时(如3值)指示视频文件中带有嗅觉和触觉感知信息。

情况四、通过分别定义嗅觉感知属性信息和触觉感知属性信息的box来分别进行指示。

例如，定义嗅觉感知信息box类ScentInfoBox:

aligned(8)class ScentInfoBox extends FullBox(‘scet’,version,flags)

{

}

定义触觉感知信息box类TactilityInfoBox:

aligned(8)class TactilityInfoBox extends FullBox(‘tact’,version,flags)

{

}

终端设备可以通过这些box是否存在，来判断视频文件中是否存在嗅觉感知属性信息或者触觉感知属性信息。

实施例四、感知属性信息携带在媒体呈现描述MPD中

服务器侧

步骤一：与实施例三中服务器侧对应的步骤一相同。

步骤二：服务器对源视频数据进行编码，获得视频码流。

步骤三：该服务器将上述视频码流送入封装器进行封装，保存在服务器上；或者，通过发送传输装置将其发送给终端设备。封装方式可以是以媒体文件方式封装，也可以是以适用于网络传输的方式进行封装。此外，该服务器采用一种适用于网络传输的文件封装和准备方式，例如，使用基于http的自适应调整流(dynamic adaptive streaming overHTTP，DASH)标准，将上述视频码流中不同物体的感知属性信息在MPD文件中进行描述。具体地，该服务器可以确定该视频码流中需要编码感知属性的物体的感知属性信息和空间位置信息，将其添加在与该视频码流对应的MPD文件中。

针对具有嗅觉、触觉等感知属性的数据流，在MPD里面指定感知属性信息的描述示例如下：

在本申请实施例中，可以在不同的AdaptationSet中针对每种感知信息的视频文件进行描述。在Representation字段中新定义MIME type为sensation/mp4，定义对应属性sensationType，sensationType为第一值(如1值)表示BaseURL字段中的视频文件为嗅觉感知文件，sensationType为第二值(如2值)表示触觉感知文件。

可选的，通过指定EssentialProperty中新的属性，如SensationInfo@value，来表示视频文件为嗅觉感知文件或触觉感知文件，如下述描述方法：

SensationInfo@value的属性描述如下表所示。

表九SensationInfo@value的属性描述

SensationInfo@value	Description
		information	specifies information of different sensations

其中，information元素表示value的值，information为第一值(如1值)表示BaseURL字段中的信息为嗅觉感知信息，information为第二值(如2值)表示BaseURL字段中的信息为触觉感知信息。

终端设备侧

步骤一：与实施例三中终端设备侧对应的步骤一相同。

步骤二：终端设备将视频码流送入码流解封装装置，进行解封装，输出适合视频解码器解码的文件。在这一步骤中，终端设备可以针对前述服务器进行感知属性信息描述的MPD文件，解析对应MPD文件中对应感知属性信息的相关描述，如前述的mimeType与sensationType的值，获得MPD文件中的感知属性信息。

步骤三：与实施例三中终端设备侧对应的步骤三相同。

应理解，物体的感知属性信息可以仅携带在媒体文件格式中，也可以仅携带在MPD中，还可以既携带在媒体文件格式中，又携带在MPD中，其中，媒体文件格式中的感知属性信息和MPD中的感知属性信息可以相同，也可以不相同，在不相同的情况下，服务器和终端设备可以约定采用其中之一进行解析渲染，本申请实施例对此不作限定。

综上所述，本申请通过在视频码流、SEI、媒体文件格式或媒体呈现描述MPD中加入视频中相关的物体感知属性信息以及物体的空间位置等信息，使得播放器能够根据用户在全景视频中视角或位置的不同来渲染当前用于交互的感知属性，使得用户在观看全景视频时身临其境，有更为强烈的沉浸感，提升了用户的主观感受。

应理解，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

上文结合图1至图3对本申请实施例的视频处理方法进行了详细的描述，下面结合图4至图6对本申请实施例的视频处理装置进行描述，应理解，图4至图6所描述的视频处理装置能够执行图1至图3中的视频处理方法的各个步骤，上文图1至图3中对各个步骤的限定同样适用于图4至图6所示的装置，因此，下面在描述图4至图6所示的装置时，为了简洁，适当省略重复的描述。

图4是本申请实施例的视频处理装置的示意性框图。图4所示的装置400包括：

获取单元410，用于获取源视频数据；

处理单元420，用于确定所述源视频数据中需要对感知属性信息进行编码的至少一个物体，所述感知属性信息用于表示所述至少一个物体在被用户感知时所呈现出的性质；

所述获取单元410还用于：获取所述至少一个物体的所述感知属性信息和所述至少一个物体的空间位置信息；

所述处理单元420还用于：将所述感知属性信息和所述空间位置信息添加到对所述源视频数据编码后生成的视频码流中或所述源视频数据的视频文件中，其中，所述视频文件用于描述所述源视频数据的视频属性；对所述视频码流或所述视频文件进行封装。

本申请实施例的视频处理装置，通过将除了视觉和听觉之外的其他人体感知属性表示在视频码流或视频文件中，并将物体的感知属性与物体在视频中的空间位置相关联，使得视频中的不同物体给用户带来不同感知，从而获得更好的用户体验。

可选地，所述处理单元420具体用于：确定所述至少一个物体中目标物体的语法元素，所述语法元素用于表示所述目标物体的感知属性信息和所述目标物体的空间位置信息；将所述语法元素编码到与所述目标物体对应的编码单元CU语法结构体或辅助增强信息SEI中，获得所述视频码流。

可选地，所述处理单元420具体用于：确定所述至少一个物体中目标物体的语法元素，所述语法元素用于表示所述目标物体的感知属性信息和所述目标物体的空间位置信息；将所述语法元素添加到所述视频文件的媒体文件格式或媒体呈现描述MPD中。

可选地，所述至少一个物体的空间位置信息包括所述至少一个物体与感知属性信息捕获装置之间的距离度量值；所述至少一个物体的感知属性信息包括下列信息中的至少一种：所述至少一个物体的气味码、所述至少一个物体的气味最大强度、所述至少一个物体的触感码以及所述至少一个物体的触感最大强度，其中，所述气味码用于表示所述至少一个物体散发的气味类型，所述触感码用于表示所述至少一个物体被碰触时用户的触感类型。

可选地，所述视频码流或所述视频文件包括标志位，所述标志位用于表示所述至少一个物体的所述感知属性信息是否需要被解析。

可选地，所述标志位包括在所述视频码流的头结构中；或所述标志位包括在所述视频码流的所述感知属性信息中；或所述标志位包括在所述视频文件的盒子box中。

应理解，这里的装置400以功能单元的形式体现。这里的术语“单元”可以指应用特有集成电路(application specific integrated circuit，ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。在一个可选例子中，本领域技术人员可以理解，装置400可以具体为上述实施例中的服务器，装置400可以用于执行上述方法实施例中与服务器对应的各个流程和/或步骤，为避免重复，在此不再赘述。

在本申请的实施例，图4中的装置也可以是芯片或者芯片系统，例如，片上系统(system on chip，SoC)。对应地，收发单元可以是该芯片的收发电路，本申请实施例在此不作限定。

图5是本申请实施例的视频处理装置的示意性框图。图5所示的装置500包括：

获取单元510，用于获取视频码流或视频文件，所述视频码流或所述视频文件中携带至少一个物体的感知属性信息和所述至少一个物体的空间位置信息，所述感知属性信息用于表示所述至少一个物体在被用户感知时所呈现出的性质，其中，所述视频码流为对源视频数据编码后生成的，所述视频文件用于描述所述源视频数据的视频属性；

所述获取单元510还用于：获得所述视频码流或所述视频文件中至少一个目标物体的感知属性信息和所述至少一个目标物体的空间位置信息，所述至少一个物体包括所述至少一个目标物体；

处理单元520，用于基于所述用户的行为，结合所述至少一个目标物体的感知属性信息和所述至少一个目标物体的空间位置信息，对所述至少一个目标物体的感知属性进行感知渲染。

可选地，所述处理单元520还用于：对所述视频码流进行解码，从与所述至少一个目标物体对应的编码单元CU语法结构体或辅助增强信息SEI中，获取所述至少一个目标物体的感知属性信息和所述至少一个目标物体的空间位置信息；或对所述视频文件进行解封装，从所述视频文件的媒体文件格式或媒体呈现描述MPD中，获取所述至少一个目标物体的感知属性信息和所述至少一个目标物体的空间位置信息。

可选地，所述处理单元520具体用于：根据所述用户的当前位置、所述至少一个目标物体中第一目标物体的空间位置信息以及所述第一目标物体的气味最大强度，确定所述第一目标物体在所述用户的当前位置处的气味强度值；散发与所述气味强度值和所述第一目标物体的气味码对应的气味。

可选地，所述处理单元520具体用于：根据所述用户的触碰点的当前位置、所述至少一个目标物体中第二目标物体的空间位置信息以及所述第二目标物体的触感最大强度，确定所述第二目标物体在所述用户的触碰点处的触碰强度值；向所述用户反馈与所述触碰强度值和所述第二目标物体的触感码对应的触觉感知。

可选地，所述视频码流或所述视频文件包括标志位，所述标志位用于表示所述至少一个物体的所述感知属性信息是否需要被解析；所述处理单元520还用于：在基于用户的视角以及所述视频码流或所述视频文件，获得所述用户当前视角内的至少一个目标物体的感知属性信息之前，根据所述标志位，确定是否需要对所述至少一个物体的感知属性信息进行解析。

应理解，这里的装置500以功能单元的形式体现。这里的术语“单元”可以指应用特有集成电路(application specific integrated circuit，ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。在一个可选例子中，本领域技术人员可以理解，装置500可以具体为上述实施例中的终端设备，装置500可以用于执行上述方法实施例中与终端设备对应的各个流程和/或步骤，为避免重复，在此不再赘述。

在本申请的实施例，图5中的装置也可以是芯片或者芯片系统，例如，片上系统(system on chip，SoC)。对应地，收发单元可以是该芯片的收发电路，本申请实施例在此不作限定。

图6是本申请实施例的另一视频处理装置的硬件结构示意图。图6所示的装置600可以看成是一种计算机设备，装置600可以作为本申请实施例的视频处理装置的一种实现方式，也可以作为本申请实施例的视频处理方法的一种实现方式，装置600包括处理器610、存储器620、通信接口630。可选地，该装置600还可以包括输入/输出接口和总线。其中，处理器610、存储器620、通信接口630和输入/输出接口可以通过总线实现彼此之间的通信连接。

可选地，该装置600可以执行上述方法实施例中服务器对应的各个步骤。其中，该处理器610用于通过通信接口630获取源视频数据；确定所述源视频数据中需要对感知属性信息进行编码的至少一个物体，所述感知属性信息用于表示所述至少一个物体在被用户感知时所呈现出的性质；获取所述至少一个物体的所述感知属性信息和所述至少一个物体的空间位置信息；将所述感知属性信息和所述空间位置信息添加到对所述源视频数据编码后生成的视频码流中或所述源视频数据的视频文件中，其中，所述视频文件用于描述所述源视频数据的视频属性；对所述视频码流或所述视频文件进行封装。

可选地，该装置600可以执行上述方法实施例中终端设备对应的各个步骤。其中，该处理器610用于通过通信接口630获取视频码流或视频文件，所述视频码流或所述视频文件中携带至少一个物体的感知属性信息和所述至少一个物体的空间位置信息，所述感知属性信息用于表示所述至少一个物体在被用户感知时所呈现出的性质，其中，所述视频码流为对源视频数据编码后生成的，所述视频文件用于描述所述源视频数据的视频属性；获得所述视频码流或所述视频文件中至少一个目标物体的感知属性信息和所述至少一个目标物体的空间位置信息，所述至少一个物体包括所述至少一个目标物体；基于所述用户的行为，结合所述至少一个目标物体的感知属性信息和所述至少一个目标物体的空间位置信息，对所述至少一个目标物体的感知属性进行感知渲染。

处理器610可以采用通用的中央处理器(central processing unit，CPU)，微处理器，应用专用集成电路(application specific integrated circuit，ASIC)，或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的视频处理装置中的模块所需执行的功能，或者执行本申请方法实施例的视频处理方法。处理器610可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器610中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器610可以是通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器620，处理器610读取存储器620中的信息，结合其硬件完成本申请实施例的视频处理装置中包括的模块所需执行的功能，或者执行本申请方法实施例的视频处理方法。

存储器620可以是只读存储器(read only memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(random access memory，RAM)。存储器620可以存储操作系统以及其他应用程序。在通过软件或者固件来实现本申请实施例的视频处理装置中包括的模块所需执行的功能，或者执行本申请方法实施例的视频处理方法时，用于实现本申请实施例提供的技术方案的程序代码保存在存储器620中，并由处理器610来执行视频处理装置中包括的模块所需执行的操作，或者执行本申请方法实施例提供的视频处理方法。

通信接口630使用例如但不限于收发器一类的收发装置，来实现装置600与其他设备或通信网络之间的通信。可以作为处理装置中的获取模块或者发送模块。

可选地，输入/输出接口用于接收输入的数据和信息，输出操作结果等数据。总线605可包括在装置600各个部件(例如处理器610、存储器620、输入/输出接口和通信接口630)之间传送信息的通路。

应注意，尽管图6所示的装置600仅仅示出了处理器610、存储器620以及通信接口630，但是在具体实现过程中，本领域的技术人员应当明白，装置600还包括实现正常运行所必须的其他器件，例如还可以包括显示器，用于显示要播放的视频数据。同时，根据具体需要，本领域的技术人员应当明白，装置600还可包括实现其他附加功能的硬件器件。此外，本领域的技术人员应当明白，装置600也可仅仅包括实现本申请实施例所必须的器件，而不必包括图6中所示的全部器件。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种视频处理方法，其特征在于，包括：

服务器获取源视频数据；

所述服务器确定所述源视频数据中需要对感知属性信息进行编码的至少一个物体，所述感知属性信息用于表示所述至少一个物体在被用户感知时所呈现出的性质；

所述服务器获取所述至少一个物体的所述感知属性信息和所述至少一个物体的空间位置信息；

所述服务器将所述感知属性信息和所述空间位置信息添加到对所述源视频数据编码后生成的视频码流中或所述源视频数据的视频文件中，其中，所述视频文件用于描述所述源视频数据的视频属性；

所述服务器对所述视频码流或所述视频文件进行封装。

2.根据权利要求1所述的方法，其特征在于，所述服务器将所述感知属性信息和所述空间位置信息添加到视频码流或视频文件，包括：

3.根据权利要求1所述的方法，其特征在于，所述服务器将所述感知属性信息和所述空间位置信息添加到视频码流或视频文件，包括：

4.根据权利要求1至3中任一项所述的方法，其特征在于，所述至少一个物体的空间位置信息包括所述至少一个物体与感知属性信息捕获装置之间的距离度量值；

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述视频码流或所述视频文件包括标志位，所述标志位用于表示所述至少一个物体的所述感知属性信息是否需要被解析。

6.根据权利要求5所述的方法，其特征在于，所述标志位包括在所述视频码流的头结构中；或

所述标志位包括在所述视频码流的所述感知属性信息中；或

所述标志位包括在所述视频文件的盒子box中。

7.一种视频处理方法，其特征在于，包括：

终端设备获取视频码流或视频文件，所述视频码流或所述视频文件中携带至少一个物体的感知属性信息和所述至少一个物体的空间位置信息，所述感知属性信息用于表示所述至少一个物体在被用户感知时所呈现出的性质，其中，所述视频码流为对源视频数据编码后生成的，所述视频文件用于描述所述源视频数据的视频属性；

所述终端设备获得所述视频码流或所述视频文件中至少一个目标物体的感知属性信息和所述至少一个目标物体的空间位置信息，所述至少一个物体包括所述至少一个目标物体；

所述终端设备基于所述用户的行为，结合所述至少一个目标物体的感知属性信息和所述至少一个目标物体的空间位置信息，对所述至少一个目标物体的感知属性进行感知渲染。

8.根据权利要求7所述的方法，其特征在于，所述终端设备获得所述视频码流或所述视频文件中至少一个目标物体的感知属性信息和所述至少一个目标物体的空间位置信息，包括：

所述终端设备对所述视频码流进行解码，从与所述至少一个目标物体对应的编码单元CU语法结构体或辅助增强信息SEI中，获取所述至少一个目标物体的感知属性信息和所述至少一个目标物体的空间位置信息；或

9.根据权利要求7或8所述的方法，其特征在于，所述至少一个物体的空间位置信息包括所述至少一个物体与感知属性信息捕获装置之间的距离度量值；

10.根据权利要求9所述的方法，其特征在于，所述终端设备基于所述用户的行为，结合所述至少一个目标物体的感知属性信息和所述至少一个目标物体的空间位置信息，对所述至少一个目标物体的感知属性进行渲染，包括：

11.根据权利要求9或10所述的方法，其特征在于，所述终端设备基于所述用户的行为，结合所述至少一个目标物体的感知属性信息和所述至少一个目标物体的空间位置信息，对所述至少一个目标物体的感知属性进行渲染，包括：

12.根据权利要求7至11中任一项所述的方法，其特征在于，所述视频码流或所述视频文件包括标志位，所述标志位用于表示所述至少一个物体的所述感知属性信息是否需要被解析；

13.根据权利要求12所述的方法，其特征在于，所述标志位包括在所述视频码流的头结构中；或

所述标志位包括在所述视频码流的所述感知属性信息中；或

所述标志位包括在所述视频文件的盒子box中。

14.一种视频处理装置，其特征在于，包括：

获取单元，用于获取源视频数据；

处理单元，用于确定所述源视频数据中需要对感知属性信息进行编码的至少一个物体，所述感知属性信息用于表示所述至少一个物体在被用户感知时所呈现出的性质；

所述获取单元还用于：

获取所述至少一个物体的所述感知属性信息和所述至少一个物体的空间位置信息；

所述处理单元还用于：

将所述感知属性信息和所述空间位置信息添加到对所述源视频数据编码后生成的视频码流中或所述源视频数据的视频文件中，其中，所述视频文件用于描述所述源视频数据的视频属性；

对所述视频码流或所述视频文件进行封装。

15.根据权利要求14所述的装置，其特征在于，所述处理单元具体用于：

确定所述至少一个物体中目标物体的语法元素，所述语法元素用于表示所述目标物体的感知属性信息和所述目标物体的空间位置信息；

将所述语法元素编码到与所述目标物体对应的编码单元CU语法结构体或辅助增强信息SEI中，获得所述视频码流。

16.根据权利要求14所述的装置，其特征在于，所述处理单元具体用于：

将所述语法元素添加到所述视频文件的媒体文件格式或媒体呈现描述MPD中。

17.根据权利要求14至16中任一项所述的装置，其特征在于，所述至少一个物体的空间位置信息包括所述至少一个物体与感知属性信息捕获装置之间的距离度量值；

18.根据权利要求14至17中任一项所述的装置，其特征在于，所述视频码流或所述视频文件包括标志位，所述标志位用于表示所述至少一个物体的所述感知属性信息是否需要被解析。

19.根据权利要求18所述的装置，其特征在于，所述标志位包括在所述视频码流的头结构中；或

所述标志位包括在所述视频码流的所述感知属性信息中；或

所述标志位包括在所述视频文件的盒子box中。

20.一种视频处理装置，其特征在于，包括：

获取单元，用于获取视频码流或视频文件，所述视频码流或所述视频文件中携带至少一个物体的感知属性信息和所述至少一个物体的空间位置信息，所述感知属性信息用于表示所述至少一个物体在被用户感知时所呈现出的性质，其中，所述视频码流为对源视频数据编码后生成的，所述视频文件用于描述所述源视频数据的视频属性；

所述获取单元还用于：

获得所述视频码流或所述视频文件中至少一个目标物体的感知属性信息和所述至少一个目标物体的空间位置信息，所述至少一个物体包括所述至少一个目标物体；

处理单元，用于基于所述用户的行为，结合所述至少一个目标物体的感知属性信息和所述至少一个目标物体的空间位置信息，对所述至少一个目标物体的感知属性进行感知渲染。

21.根据权利要求20所述的装置，其特征在于，所述处理单元还用于：

对所述视频码流进行解码，从与所述至少一个目标物体对应的编码单元CU语法结构体或辅助增强信息SEI中，获取所述至少一个目标物体的感知属性信息和所述至少一个目标物体的空间位置信息；或

对所述视频文件进行解封装，从所述视频文件的媒体文件格式或媒体呈现描述MPD中，获取所述至少一个目标物体的感知属性信息和所述至少一个目标物体的空间位置信息。

22.根据权利要求20或21所述的装置，其特征在于，所述至少一个物体的空间位置信息包括所述至少一个物体与感知属性信息捕获装置之间的距离度量值；

23.根据权利要求22所述的装置，其特征在于，所述处理单元具体用于：

根据所述用户的当前位置、所述至少一个目标物体中第一目标物体的空间位置信息以及所述第一目标物体的气味最大强度，确定所述第一目标物体在所述用户的当前位置处的气味强度值；

散发与所述气味强度值和所述第一目标物体的气味码对应的气味。

24.根据权利要求22或23所述的装置，其特征在于，所述处理单元具体用于：

根据所述用户的触碰点的当前位置、所述至少一个目标物体中第二目标物体的空间位置信息以及所述第二目标物体的触感最大强度，确定所述第二目标物体在所述用户的触碰点处的触碰强度值；

向所述用户反馈与所述触碰强度值和所述第二目标物体的触感码对应的触觉感知。

25.根据权利要求20至24中任一项所述的装置，其特征在于，所述视频码流或所述视频文件包括标志位，所述标志位用于表示所述至少一个物体的所述感知属性信息是否需要被解析；

所述处理单元还用于：

在基于用户的视角以及所述视频码流或所述视频文件，获得所述用户当前视角内的至少一个目标物体的感知属性信息之前，根据所述标志位，确定是否需要对所述至少一个物体的感知属性信息进行解析。

26.根据权利要求25所述的装置，其特征在于，所述标志位包括在所述视频码流的头结构中；或

所述标志位包括在所述视频码流的所述感知属性信息中；或

所述标志位包括在所述视频文件的盒子box中。