CN107750462A

CN107750462A - 图像数据封装

Info

Publication number: CN107750462A
Application number: CN201680035232.8A
Authority: CN
Inventors: 弗雷德里克·梅兹; 弗兰克·德诺奥; 内尔·奥德拉奥果; 简·勒菲弗; 西里尔·康克拉托
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2015-06-16
Filing date: 2016-06-08
Publication date: 2018-03-02
Anticipated expiration: 2036-06-08
Also published as: US20240179297A1; JP2018522469A; RU2719368C2; ES2943233T3; EP3311585A1; RU2019115882A; EP4135336A1; WO2016202664A1; GB2539461B; GB201510608D0; US11985302B2; US10645379B2; RU2690167C1; GB2539461A; US20180352219A1; JP7039668B2; CA2988476A1; RU2019115882A3; KR20190123806A; JP2021057899A

Abstract

提供一种用于对表示一个或多个图像的编码位流进行封装的方法，封装位流包括数据部分和元数据部分。所述方法包括：提供图像项信息，所述图像项信息用于标识数据部分中的表示子图像或单个图像的图像和/或一组单个图像的部分；提供图像描述信息，所述图像描述信息包括包含与一个或多个图像有关的显示参数和/或变换运算符的参数；以及将所述位流连同所提供的信息一起输出为封装数据文件。所述图像项信息包括一个或多个属性，所述一个或多个属性包括所述图像描述信息中的专用于所考虑的子图像或单个图像或一组单个图像的至少一部分，所述图像描述信息是在一个或多个框中所定义的。

Description

图像数据封装

技术领域

本发明涉及利用描述性元数据来将诸如静止图像、静止图像的连拍或视频数据等的图像数据存储在媒体容器中。这种元数据通常提供对图像数据和图像数据的一部分的轻松访问。

背景技术

可以实行该部分中所描述的方法中的一些方法，但这些方法未必是先前设想或实行的方法。因此，该部分中所描述的方法未必是本申请的权利要求的现有技术，并且没有通过包括在本部分中而被视为现有技术。

HEVC标准定义静止图像的编码所用的配置文件，并且描述用于对单个静止图像或静止图像的连拍进行压缩的特定工具。已提出这种图像数据所使用的ISO基媒体文件格式(ISOBMFF)的扩展以包括在ISO/IEC 23008标准的名为“Image File Format”的第12部分中。该标准涵盖与不同的使用情况相对应的两种存储形式：

-图像序列的存储，其中在解码器处可选地使用定时，以及图像可能依赖于其它图像；以及

-单个图像和独立编码图像的集合的存储。

在第一种情况下，封装接近采用ISO基媒体文件格式的视频轨的封装(参见文献<Information technology—Coding of audio-visual objects—Part 12:ISO basemedia file format>,ISO/IEC 14496-12:2014,第五版,2015年4月)，并且使用相同的工具和概念，诸如描述所用的“trak”框和样本分组等。“trak”框是包含用于描述轨(即，相关样本的定时序列)的子框的文件格式框。

在第二种情况下，使用一组ISOBMFF框、即“meta”框。这些框和它们的层级体系与“track”框相比提供较少的描述工具，并且涉及“信息项”或“项”而不是相关样本。

可以使用图像文件格式来局部地显示多媒体文件或者流传输多媒体呈现。HEVC静止图像具有产生许多问题的多个应用。

图像连拍是一个应用。图像连拍是照相机所拍摄到的并且存储为单个表示的静止图片的序列(参考数据块的多个图片项)。用户可能想要对这些图片进行多种类型的动作：选择一个图片作为缩略图或封面或者对这些图片应用效果等。

因而，需要用于利用图片列表在数据块中的相应字节来标识该图片列表的描述性元数据。

计算摄影是另一应用。在计算摄影中，用户有权访问不同分辨率的同一图片(不同曝光、不同焦点等)。这些不同分辨率必须被存储作为元数据，使得可以选择一个分辨率并且可以定位并提取相应的数据以进行处理(渲染、编辑或传输等)。

随着图片分辨率在大小方面的增加，因而需要提供足够的描述以使得可以容易地识别并提取这些大图片的仅一些空间部分。

另一种应用是对视频序列中的特定图片的访问，例如以用于视频摘要或者视频监控数据中的证明图像等。

对于这种应用，需要图像元数据使得除压缩视频数据和视频轨元数据之外还能够容易地访问关键图像。

另外，专业照相机已达到高的空间分辨率。具有4K2K分辨率的视频或图像如今常见。甚至8k4k的视频或图像如今越来越常见。并行地，越来越多地在具有视频流传输能力的移动型连接装置上播放视频。因而，如果移动装置的用户想要通过保持或甚至提高质量来显示或关注视频的子部分，则将视频分成区块变得重要。通过使用区块，因此用户可以交互地请求视频的空间子部分。

因而，需要采用文件格式以紧凑方式描述视频的这些空间子部分，以在无需除简单地解析元数据框以外的附加处理的情况下可访问这些空间子部分。对于与如此描述的视频相对应的图像，用户还关注对空间子部分的访问。

另外，用户通常对图像进行变换或合成以创建新的派生图像。这些派生图像是通过将诸如旋转或裁剪等的一个或多个指定操作应用于其它图像或其它一组图像所获得的。

因而，需要描述要应用于作为采用文件格式的元数据的一个或多个输入图像的操作，以从原始图像中检索派生图像。

ISO/IEC 23008-12标准涵盖用于将静止图像封装成最近已讨论的文件格式的两个方式。

一个方式是基于“track”框以及具有关联描述工具的相关样本的定时序列的概念，并且另一方式是基于“meta”框、基于信息项而不是样本，从而提供较少的描述工具，特别是针对关注区域描述和区块化支持。

因而，需要采用新的图像文件格式来提供区块化支持。

区块的使用在现有技术中、特别是在压缩时是众所周知的。关于ISO基媒体文件格式中的索引，在ISO/IEC 14496标准的第15部分的修改草案即“Carriage of NAL unitstructured video in the ISO Base Media File Format”中存在区块化描述符。

然而，这些描述符依赖于“track”框和样本分组工具，并且在使用基于“meta”的方法的情况下不能以静止图像文件格式使用。在没有这些描述符的情况下，从采用该文件格式所存储的编码图片中选择并提取区块变得复杂。

图1示出如MPEG贡献m32254中所公开的、ISO基媒体文件格式的“meta”框(100)中的利用区块进行编码的静止图像的描述。

除针对各区块图片定义各信息项(102、103、104和105)外，还针对完整图片定义信息项101。将这些信息项存储在被称为“ItemInfoBox”(iinf)的框中。使用来自ISO BMFF标准的被称为“ItemReferenceBox”的框(106)来指示在完整图片的信息项和与区块图片相对应的四个信息项(108)之间存在“区块”关系(107)。使用各信息项的标识符，使得被称为“ItemLocationBox”的框(109)在表示各信息项的编码数据(110)中提供字节范围。使用另一框“ItemReferenceBox”(112)来使EXIF元数据(111)与完整图片的信息项(101)相关联，并且在媒体数据框(110)中创建相应的数据块(111)。此外，创建用于标识EXIF元数据的附加信息项(113)。

即使将完整图片及其区块作为信息项进行了介绍，这里也没有提供区块化信息。此外，在将附加元数据与(如EXIF那样的)信息项相关联的情况下，没有创建使用附加“ItemReferenceBox”所参考的数据块。

重复使用来自EXIF的与区块化有关的信息并且重复使用静止图像文件格式草案中所定义的机制将无法利用现有的EXIF标签来描述不规则网格。

因而，仍需要改进静止图像、特别是HEVC静止图像的文件格式。特别地，需要用于在利用该文件格式存储的静止图像中提取关注区域的方法。

本发明在上述的上下文内。

发明内容

根据本发明的第一方面，提供一种用于对表示一个或多个图像的编码位流进行封装的方法，所述方法包括以下步骤：

-提供区块描述信息，其中所述区块描述信息包括用于将图像区域分割成一个或多个区块的空间参数；

-提供区块图片项信息，其中所述区块图片项信息用于标识所述位流中的表示单个图像的区块的部分；

-提供使所述区块图片项链接至所述区块描述信息的参考信息；以及

-将所述位流连同所提供的信息一起输出为封装数据文件。

该输出可以根据所定义的标准来进行，并且是可读取且可解码的。

根据第一方面的方法使得可以通过解析句法元素并且无需复杂计算，来从例如超高分辨率图像(4K2K、8K4K…)中容易地识别、选择并提取区块。

可以扩展ISO基媒体文件格式的元数据框的描述工具。特别地，使得可以使区块描述与信息项相关联。

可以扩展“meta”框层级体系的一部分，以提供附加描述工具，并且特别是支持静止图像内的基于区块的访问。

根据第一方面的方法使得可以基于HEVC区块来从编码HEVC静止图片中容易地提取关注区域。

本发明的实施例提供针对根据HEVC标准进行编码后的静止图像的区块描述支持和区块访问。

这样使得可以保留静止图像的视频轨可利用的关注区域特征。一般来说，可以识别并且容易地提取静止图片中的与用户定义关注区域相对应的部分，以供渲染或传输至媒体播放器。

例如，所述封装编码位流还包含用于标识与视频序列相对应的所述数据流的定时部分的信息。

因此，可以在单个数据上设置双重索引，其中该双重索引提供与作为视频的一部分的一些静止图像相同的针对该视频的访问设施。

例如，区块描述信息针对各区块图片项包括一组空间参数。

例如，区块描述信息包括超过一个区块图片项共同的空间参数。

例如，区块描述信息嵌入在位流中。

例如，区块描述信息被提供为元数据。

例如，参考信息包括参考类型、以及包含所述区块描述信息的附加描述性元数据。

例如，参考信息包括参考类型、以及与所述区块描述信息有关的参考参数。

该方法还可以包括：提供用于参考位流中的所述区块描述信息的元数据项。

例如，对区块图片项进行分组，其中，提供用于使一组区块图片项链接至所述区块描述信息的参考信息。

例如，使元数据项链接至另一项的所有参考都包括在封装数据文件中的单个参考框中。

例如，来自任何类型的一个项的所有关系都存储在单个项信息描述符中。

例如，所述输出由服务器模块进行以用于自适应流传输。

例如，进行所述输出以存储到存储器中。

例如，向显示模块进行所述输出以供显示。

例如，所述输出由通信模块进行以用于传输。

例如，所述封装数据文件与标准化文件格式相对应。

例如，所述封装数据文件是可解码且可播放的。

根据本发明的第二方面，提供一种用于对封装数据文件进行处理的方法，所述封装数据文件包括与一个或多个图像相对应的编码位流以及包含区块描述信息的信息，所述区块描述信息包括用于将图像区域分割成一个或多个区块的空间参数，所述方法包括以下步骤：

-选择关注图像区域；

-从所述区块描述信息来识别与所选择的关注区域相对应的区块；

-选择链接至所识别出的所述区块的一个或多个区块图片项，其中各区块图片项用于标识所述位流中的表示单个图像的区块的部分；

-提取所述位流中的利用所选择的区块图片项标识的部分；以及

-输出所提取的位流部分。

例如，所述输出由服务器模块进行以用于自适应流传输。

例如，进行所述输出以存储到存储器中。

例如，向显示模块进行所述输出以供显示。

例如，所述输出由通信模块进行以用于传输。

例如，所述封装数据文件与标准化文件格式相对应。

例如，所述封装数据文件是可解码且可播放的。

根据本发明的第三方面，提供一种用于对表示至少一个图像的图像数据进行处理以封装到封装文件中的方法，所述方法包括以下步骤：

-获得所述至少一个图像向多个图像部分的空间子分割；

-确定用于标识所述图像数据内的表示所述多个图像部分中的图像部分的数据部分的至少一个部分标识数据；以及

-将所述图像数据连同至少以下内容一起封装到所述封装文件中：

○表示所述至少一个图像的所述子分割的子分割描述数据，

○所述部分标识数据，以及

○使所述子分割描述数据和所述部分标识数据链接的参考数据。

例如，所述图像数据表示视频序列的多个图像，并且所述方法还包括：确定用于标识所述图像数据内的表示所述视频序列的时间部分的数据部分的至少一个时间标识数据，并且将所述图像数据连同所述时间标识数据一起进行封装。

例如，确定分别表示所述视频序列的所述时间部分的图像的同一图像部分的多个部分标识数据。

例如，将至少所述子分割描述数据作为元数据封装到图像数据。

例如，所述空间子分割嵌入在包含所述图像数据的位流中。

例如，针对各图像部分确定各部分标识数据。

例如，针对多个图像部分确定共同的部分标识数据。

该方法还可以包括将所述封装文件输出到位流中，以供服务器装置所进行的自适应流传输。

该方法还可以包括：将所述封装文件输出到位流中，以发送至用于显示所述图像数据的显示装置。

该方法还可以包括：将所述封装文件输出到位流中，以发送至客户端装置。

该方法还可以包括：将所述封装文件存储到存储装置中。

例如，参考数据包括参考类型、以及包含所述子分割描述数据的附加描述性元数据。

例如，参考数据包括参考类型、以及与所述子分割描述数据有关的参考参数。

例如，在元数据项中参考所述子分割描述数据。

例如，对部分标识数据进行分组，其中，参考数据使一组部分标识数据链接至所述部分标识数据。

例如，所述封装文件包括包含针对图像数据的所有参考数据的单个参考框。

例如，所述封装文件包括包含所述子分割描述数据、部分标识数据和参考数据之间的关系的表示的描述。

根据本发明的第四方面，提供一种用于对封装文件进行处理的方法，所述封装文件包括：

-表示至少一个图像的图像数据；

-表示所述至少一个图像向多个图像部分的空间子分割的子分割描述数据；

-用于标识所述图像数据内的表示所述多个图像部分中的图像部分的数据部分的至少一个部分标识数据；以及

-使所述子分割描述数据和所述部分信息链接的参考数据，

所述方法包括以下步骤：

-确定所述至少一个图像中的关注区域；

-基于所述子分割描述数据来确定属于所述关注区域的至少一个图像部分；

-基于所述参考数据来访问用于标识所述图像数据内的表示属于所述关注区域的所述至少一个图像部分的数据部分的至少一个部分标识数据；以及

-提取所述图像数据内的所述数据部分。

例如，所述图像数据包括视频序列的多个图像，并且所述封装文件还包括用于标识所述图像数据内的表示所述视频序列的时间部分的数据部分的至少一个时间标识数据，所述关注区域是针对所述视频序列的所述时间部分的图像所确定的，并且提取与所述视频序列的所述时间部分的多个图像中的所述关注区域相对应的数据部分。

例如，多个部分标识数据分别表示所述视频序列的所述时间部分的图像的同一图像部分。

例如，针对各图像部分确定各部分标识数据。

例如，针对多个图像部分确定共同的部分标识数据。

该方法还可以包括：接收所述封装文件作为由服务器装置进行自适应流传输的位流。

该方法还可以包括：显示所述关注区域。

例如，在元数据项中参考所述子分割描述数据。

根据本发明的第五方面，提供一种被配置为实现根据第一方面所述的方法的装置。

该装置可以包括：

-处理单元，其被配置为提供包括用于将图像区域分割成一个或多个区块的空间参数的区块描述信息，提供用于标识位流中的表示单个图像的区块的部分的区块图片项信息，以及提供使所述区块图片项链接至所述区块描述信息的参考信息；以及

-通信单元，其被配置为将所述位流连同所提供的信息一起输出为封装数据文件。

根据本发明的第六方面，提供一种被配置为实现根据第二方面所述的方法的装置。

所述装置可被配置为处理包括与一个或多个图像相对应的编码位流的封装数据文件以及包含区块描述信息的信息，所述区块描述信息包括用于将图像区域分割成一个或多个区块的空间参数。所述装置还可以包括：

-处理单元，其被配置为选择关注图像区域，从所述区块描述信息来识别与所选择的关注区域相对应的区块，选择链接至所识别的所述区块的一个或多个区块图片项，其中各区块图片项用于标识位流中的表示单个图像的区块的部分，以及提取所述位流中的利用所选择的区块图片项标识的部分；以及

-通信单元，其被配置为输出所提取的位流部分。

根据本发明的第七方面，提供一种被配置为实现根据第三方面所述的方法的装置。

所述装置可被配置为对表示至少一个图像的图像数据进行处理以封装到封装文件中，并且所述装置可以包括处理单元，所述处理单元被配置为获得所述至少一个图像向多个图像部分的空间子分割，确定用于标识所述图像数据内的表示所述多个图像部分中的图像部分的数据部分的至少一个部分标识数据，以及将所述图像数据连同至少以下内容一起封装到所述封装文件中：

-表示所述至少一个图像的所述子分割的子分割描述数据，

-所述部分标识数据，以及

-使所述子分割描述数据和所述部分标识数据链接的参考数据。

根据本发明的第八方面，提供一种被配置为实现根据第四方面所述的方法的装置。

所述装置可被配置为处理封装文件，所述封装文件包括：

-表示至少一个图像的图像数据，

-表示所述至少一个图像向多个图像部分的空间子分割的子分割描述数据，

-用于标识所述图像数据内的表示所述多个图像部分中的图像部分的数据部分的至少一个部分标识数据，以及

-使所述子分割描述数据和所述部分信息链接的参考数据。

所述装置还可以包括处理单元，所述处理单元被配置为确定所述至少一个图像中的关注区域，基于所述子分割描述数据来确定属于所述关注区域的至少一个图像部分，基于所述参考数据来访问用于标识所述图像数据内的表示属于所述关注区域的所述至少一个图像部分的数据部分的至少一个部分标识数据，并且提取所述图像数据内的所述数据部分。

根据本发明的第九方面，提供一种系统，包括：

-根据第五方面或第七方面所述的第一装置；以及

-根据第六方面或第八方面所述的第二装置，用于对来自所述第一装置的文件进行处理。

根据本发明的第十方面，提供一种计算机程序和计算机程序产品，包括用于在可编程设备的计算机部件上加载并执行的情况下实现根据本发明的第一方面、第二方面、第三方面和/或第四方面所述的方法的指令。

根据本发明的第十一方面，提供一种用于对表示一个或多个图像的编码位流进行封装的方法，封装位流包括数据部分和元数据部分。所述方法包括以下步骤：

-提供图像项信息，其中所述图像项信息用于标识所述数据部分中的表示子图像或单个图像的图像的部分；

-提供图像描述信息，其中所述图像描述信息包括包含与一个或多个图像有关的显示参数和/或变换运算符的参数；以及

-将所述位流连同所提供的信息一起输出为封装数据文件，

-其中，所述图像描述信息存储在所述元数据部分中。

在实施例中，所述图像描述信息中所包括的各参数与附加数据相关联，其中所述附加数据包括：

-类型信息，和/或

-用于使图像项信息链接至所述参数的标识符。

在实施例中，元数据部分包括在ISOBMFF的“meta”数据框中。

在实施例中，附加数据是头部。

在实施例中，附加数据是虚拟项。

在另一实施例中，图像描述信息中所包括的各变换运算符与包括用于使变换项链接至所述变换运算符的标识符的附加数据相关联。

在实施例中，元数据部分中所存储的框包括至少一个变换运算符。

在实施例中，封装位流的数据部分包括关联至一个或多个变换运算符的变换项，元数据部分还包括：

-用于标识变换运算符应用于的原始图像的信息，以及

-用于定位数据部分中的变换项的信息。

在实施例中，变换项包括至少一个变换索引，其中该索引使得能够识别元数据部分中的变换运算符其中之一。

根据本发明的第十二方面，提供一种对包括数据部分和元数据部分的封装数据文件进行处理的方法，所述封装数据文件包括数据部分中的与一个或多个图像相对应的编码位流、以及元数据部分中的包含图像或子图像描述信息的信息，其中所述图像或子图像描述信息包括包含与一个或多个图像或子图像有关的显示参数和/或变换运算符的参数。所述方法包括以下步骤：

-选择关注的图像或子图像；

-根据所参考的所述图像或子图像描述信息来从所述元数据部分中识别关联的显示参数和/或变换运算符；以及

-在识别出变换运算符的情况下，向所述图像或子图像应用变换，并且根据所述显示参数来显示最终变换得到的图像或子图像。

在实施例中，该方法还包括：在识别步骤之前，检索所述参数中所包括的附加数据，所述附加数据包括：

-类型信息，和/或

-用于使图像或子图像项信息链接至所述参数的标识符。

在实施例中，元数据部分包括在ISOBMFF的“meta”数据框中。

在实施例中，附加数据是头部。

在实施例中，附加数据是虚拟项。

在实施例中，封装位流的数据部分包括关联至一个或多个变换运算符的变换项，该元数据部分还包括：

-用于标识变换运算符应用于的原始图像的信息；以及

-用于定位数据部分中的变换项的信息。

根据本发明的第十三方面，提供一种用于对表示一个或多个图像的编码位流进行封装的服务器装置，所述服务器装置被配置为实现根据本发明的第十一方面所述的封装方法。

根据本发明的第十四方面，提供一种用于对表示一个或多个图像的编码位流进行封装的客户端装置，所述客户端装置被配置为实现根据本发明的第十二方面所述的处理方法。

根据本发明的第十五方面，提供一种计算机程序和计算机程序产品，包括用于在可编程设备的计算机部件上加载并执行的情况下实现根据本发明的第十一方面和第十二方面所述的方法的指令。

根据本发明的第十六方面，提供一种用于对表示一个或多个图像的编码位流进行封装的方法，封装位流包括数据部分和元数据部分，所述方法包括以下步骤：

-提供图像项信息，其中所述图像项信息用于标识所述数据部分中的表示子图像或单个图像的图像和/或一组单个图像的部分；

-提供图像描述信息，其中所述图像描述信息包括包含与一个或多个图

像有关的显示参数和/或变换运算符的参数；以及

-将所述位流连同所提供的信息一起输出为封装数据文件。

所述图像项信息包括一个或多个属性，所述一个或多个属性包括所述图像描述信息中的专用于所考虑的子图像或单个图像或一组单个图像的至少一部分，所述图像描述信息是在一个或多个框中所定义的。

本发明的该方面使得能够提供数据和元数据的明确分离，以实现高效的参考机制。

在实施例中，所述图像项信息是框，并且各图像项信息的属性是框，其中对属性框进行组织以形成框的表格。

在实施例中，按照出现顺序或者框的表格中的相应框，来向所述子图像或所述图像和/或所述一组单个图像应用各属性。

在实施例中，所述子图像或所述单个图像和/或所述一组单个图像与视频序列有关，所述图像项信息的属性其中之一包括一个或多个初始化参数以参考所述视频序列的初始化信息。

在实施例中，在一个专用共享框中定义所述图像描述信息中的在多个子图像或多个单个图像和/或一组单个图像之间共享的部分，其中各图像描述信息是能够经由用于使所考虑的图像项信息链接至至少一个图像描述信息的链接结构进行检索的，所述链接结构包括：

-针对所考虑的各图像项信息的第一标识符，所述第一标识符被定义为图像项信息的属性并且参考所述专用共享框中的具有相同值的第二标识符，以及

-所述专用共享框中所包括的一个或多个第二标识符，各第二标识符参考图像描述信息。

在实施例中，在两个专用共享框中定义所述图像描述信息中的在多个子图像或多个单个图像和/或一组单个图像之间共享的部分，一个专用共享框与所述显示参数有关并且另一专用共享框与所述变换运算符有关，各图像描述信息是能够经由用于使所述图像项信息链接至至少一个图像描述信息的链接结构进行检索的。

在实施例中，所述链接结构包括使所述图像项信息和至少一个图像描述信息链接的两个参考类型参数，其中各参考类型参数是所述专用共享框其中之一特有的。

在实施例中，所述链接结构包括：

-针对所考虑的各图像项信息的第一标识符和第二标识符，其中所述第一标识符被定义为图像项信息的属性并且参考与所述显示参数有关的专用共享框中的第三标识符，所述第二标识符被定义为图像项信息的属性并且参考与所述变换运算符有关的专用共享框中的第四标识符，以及

-与所述显示参数有关的专用共享框以及与所述变换运算符有关的专用共享框中分别包括的一个或多个第三标识符和第四标识符，其中所述第三标识符和所述第四标识符各自分别参考显示参数和变换运算符。

在实施例中，所述显示参数其中之一是用于定义与单个图像的各部分相对应的一组单个图像的网格。

在实施例中，所述一组单个图像中的各图像与同一单个图像有关。

根据本发明的第十七方面，提供一种用于获得表示一个或多个图像的封装位流的方法，所述封装位流包括编码数据部分和元数据部分，所述方法包括以下步骤：

-获得图像项信息，其中所述图像项信息用于标识所述编码数据部分中的表示子图像或单个图像的图像和/或一组单个图像的部分；

-获得图像描述信息，其中所述图像描述信息包括包含与一个或多个图像有关的显示参数和/或变换运算符的参数；以及

-将所述封装位流连同所确定的信息一起提取为封装数据文件。

所述图像项信息包括一个或多个属性，所述一个或多个属性包括所述图像描述信息中的专用于所考虑的子图像或单个图像或一组单个图像的至少一部分，所述图像描述信息是在一个或多个框中定义的。

在实施例中，所述链接结构包括：

根据本发明的第十八方面，提供一种用于对表示一个或多个图像的编码位流进行封装的装置，所述装置被配置为实现根据本发明的第十六方面所述的方法。

根据本发明的第十九方面，提供一种用于对表示一个或多个图像的封装位流进行处理的装置，所述装置被配置为实现根据本发明的第十七方面所述的方法。

根据本发明的第二十方面，提供一种系统，包括：

-根据本发明的第十八方面所述的第一装置；以及

-根据本发明的第十九方面所述的第二装置，用于对来自所述第一装置的文件进行处理。

根据本发明的第二十一方面，提供一种计算机程序产品，包括用于在利用可编程设备加载并执行程序的情况下实现根据本发明的第十六方面或第十七方面所述的方法的指令。

根据本发明的第二十二方面，提供一种非暂时性信息存储部件，其能够由用于存储计算机程序的指令的计算机或微处理器进行读取，所述指令用于在利用所述计算机或所述微计算机加载并执行所述计算机程序的情况下实现根据本发明的第十六方面或第十七方面所述的方法。

根据本发明的第二十三方面，提供一种用于对表示一个或多个图像的编码位流进行封装的方法，封装位流包括数据部分和元数据部分。所述方法包括以下步骤：

-将所述位流连同所提供的信息一起输出为封装数据文件。

所述图像描述信息是在一个或两个专用框中定义的，各图像描述信息是能够经由用于使所述图像项信息链接至至少一个图像描述信息的链接结构进行检索的。

在实施例中，所述图像描述信息是在一个专用框中定义的，所述链接结构包括使所述图像项信息和至少一个图像描述信息链接的参考类型参数。

在实施例中，所述图像描述信息是在一个或两个专用框中定义的，所述链接结构包括用于使所述图像项信息和至少一个图像描述信息链接的一组或两组索引，其中各组索引关联至所述专用框其中之一。

在实施例中，所述图像描述信息是在两个专用框中定义的，其中一个专用框与所述显示参数有关并且另一专用框与所述变换运算符有关。

在实施例中，所述图像描述信息是在两个专用框中定义的，所述链接结构包括分别关联至所述两个专用框中的各专用框的两个参考类型参数，各参考类型参数在关联的专用框中使所述图像项信息和至少一个图像描述信息链接。

根据本发明的第二十四方面，提供一种用于获得表示一个或多个图像的封装位流的方法，所述封装位流包括编码数据部分和元数据部分，所述方法包括以下步骤：

-获得图像描述信息，其中所述图像描述信息包括包含与一个或多个图

像有关的显示参数和/或变换运算符的参数；以及

-将所述封装位流连同所确定的信息一起提取为封装数据文件，

其中，所述图像描述信息是在一个或两个专用框中定义的，各图像描述信息是能够经由用于使所述图像项信息链接至至少一个图像描述信息的链接结构进行检索的。

根据本发明的第二十五方面，提供一种用于对表示一个或多个图像的编码位流进行封装的装置，所述装置被配置为实现根据本发明的第二十三方面所述的方法。

根据本发明的第二十六方面，提供一种用于对表示一个或多个图像的封装位流进行处理的装置，所述装置被配置为实现根据本发明的第二十四方面所述的方法。

根据本发明的第二十七方面，提供一种系统，包括：

-根据本发明的第二十五方面所述的第一装置；以及

-根据本发明的第二十六方面所述的第二装置，用于对来自所述第一装置的文件进行处理。

根据本发明的第二十八方面，提供一种计算机程序产品，包括用于在利用可编程设备加载并执行程序的情况下实现根据本发明的第二十三方面或第二十四方面所述的方法的指令。

根据本发明的第二十八方面，提供一种非暂时性信息存储部件，其能够由用于存储计算机程序的指令的计算机或微处理器进行读取，所述指令用于在利用所述计算机或所述微处理器加载并执行所述计算机程序的情况下实现根据本发明的第二十三方面或第二十四方面所述的方法。

附图说明

通过以下参考附图对非限制性典型实施例的说明，本发明的其它特征和优点将变得明显，其中，除图1以外：

图2示出区块化视频的示例；

图3示出HEVC中的各种区块/条带结构；

图4示出根据具有“track”框的ISO基媒体文件格式的区块封装；

图5示出用于描述ISOBMFF的“meta”框中的信息项的标准元数据；

图6示出针对信息项描述的典型扩展；

图7示出信息项之间的参考机制；

图8示出本发明的实施例的实现的上下文；

图9是用于实现本发明的一个或多个实施例的计算装置的示意框图。

具体实施方式

以下说明本发明的实施例。

为了更好地理解技术背景，参考图2来说明视频区块化，其中图2示出具有连续时间帧的视频(200)。将各帧(201)分割成被称为“区块”T1～T8的8个部分(这里为矩形部分)。区块的数量和形状可以是不同的。以下认为无论视频帧的索引如何、区块化都相同。

该区块化的结果是8个独立子视频(202)。这些子视频表示整个全局视频的分区。例如根据AVC或HEVC标准，各独立子视频可被编码为独立位流。子视频还可以是像例如HEVC标准的区块或AVC标准的条带那样的、单个视频位流的一部分。

HEVC标准定义了图片的不同空间子分割：区块、条带和条带片段。这些不同的子分割(或分区)是为了不同的目的而引入的：条带与流传输问题有关，而区块和条带片段是针对并行处理所定义的。

区块定义了图片中的包含整数个编码树单元(CTU)的矩形区域。图3示出由行边界和列边界(301,302)所定义的图像(300)的区块化。这样使区块在位置和大小方面成为关注区域描述的良好候选。然而，句法方面的HEVC标准位流组织及其向网络抽象层(NAL)单元的封装却基于条带(如AVC标准那样)。

根据HEVC标准，条带是条带片段的集合，其中至少第一个条带片段是独立条带片段，其它条带片段(在存在的情况下)是依赖条带片段。条带片段包含整数个连续的CTU(按光栅扫描顺序)。条带片段不必具有矩形形状(因而与区块相比不太适合关注区域表示)。将条带片段编码在HEVC位流中作为被称为“slice_segment_header”的头部，之后是被称为“slice_segment_data”的数据。独立条带片段和依赖条带片段在头部方面不同：由于依赖条带片段重复使用来自独立条带片段的头部的信息，因此依赖条带片段具有较短的头部。独立条带片段和依赖条带片段这两者都包含位流中的进入点的列表：这些进入点向着区块或者向着熵解码同步点。

图3示出条带、条带片段和区块的图像310和320的不同结构。这些结构不同于一个区块具有(仅包含一个独立条带片段的)一个条带的图像300的结构。图像310被划分成两个垂直区块(311,312)和(具有5个条带片段的)一个条带。图像320被分成两个区块(321,322)，其中左侧区块321具有(各自具有2个条带片段的)两个条带，右侧区块322具有(具有2个条带片段的)一个条带。HEVC标准定义区块和条带片段之间的组织规则，其中该组织规则可被总结为如下(必须满足一个或两个条件)：

-条带片段中的所有CTU都属于同一区块，以及

-区块中的所有CTU都属于同一条带片段。

为了具有匹配的关注区域支持和传输，优选结构300，其中一个区块包含具有一个独立片段的一个条带。然而，该封装解决方案适用于其它结构310或320。

尽管区块是针对关注区域的适当支持，但条带片段是将被实际放置在NAL单元中以在网络上传输、并且聚合以形成访问单位(即，文件格式级别的编码图片或样本)的实体。根据HEVC标准，在NAL单元头部中指定NAL单元的类型。对于类型“编码条带片段(codedslice segment)”的NAL单元，slice_segment_header经由“slice_segment_address”句法元素来指示条带片段中的第一个编码树块的地址。在PPS(Picture Parameter Set，图片参数集)NAL单元中设置区块化信息。然后，可以根据这些参数来推导条带片段和区块之间的关系。

按照定义，在区块边界上重置空间预测。然而，没有什么防止区块使用来自参考帧中的不同区块的时间预测结果。为了构建独立区块，在编码时，将针对区块内的预测单位的运动矢量限制成保持在参考帧中的同位置区块中。另外，必须在区块边界上禁用环路滤波器(去块和SAO)，以使得在仅对一个区块进行解码时不引入误差漂移。在HEVC标准中已可利用对环路滤波器的这种控制，并且将该控制设置在具有被称为“loop_filter_across_tiles_enabled_flag”的标志的条带片段头部中。通过明确地将该标志设置为零，区块边界处的像素无法依赖于落在相邻区块的边界上的像素。在满足与运动矢量和环路滤波器有关的这两个条件的情况下，区块被称为“独立可解码的”或“独立的”。

在将视频序列编码为一组独立区块的情况下，可以在不存在丢失参考数据或传播重建误差的风险的情况下，针对各帧使用基于区块的解码来对该视频序列进行解码。该结构使得可以仅重建原始视频中的例如与关注区域相对应的空间部分。

以下考虑独立区块。

参考图4来说明将区块封装成ISOBMFF文件格式。例如，将各区块封装到专用轨中。将所有区块共同的设置和初始化信息封装到例如被称为“区块基轨”的特定轨中。因而，完整视频被封装为所有这些轨的组合(即，区块基轨和一组区块轨)。

图4示出典型封装。用以根据ISOBMFF标准来封装区块化视频的一个方式是：将各区块分成专用轨，将所有区块共同的设置和初始化信息封装在例如被称为“区块基轨”的特定轨中，并且将完整视频封装为所有这些轨的组合(区块基轨+一组区块轨)。因而该封装被称为“多轨区块封装”。在图4中提供多轨区块封装的示例。

框401表示主ISOBMFF框“moov”并且包含具有标识符的轨的完整列表。例如，框411～414表示区块轨(在本示例中为四个区块)，并且框420表示区块基轨。可以使用诸如音频轨或文本轨等的附加轨，并且可以将这些附加轨封装在同一文件中。然而，为了简洁起见，这里不讨论这些附加轨。

如图4所示，区块数据被分成独立且可寻址的轨，使得可以根据参考区块轨的区块基轨来容易地重建区块轨的任何组合，以供解码和显示。由于区块基轨被设计成允许任何区块(一个区块、多个区块或所有区块)的组合，因此区块基轨还可被称为“复合轨”或“参考轨”。区块基轨420将所有区块轨的共同信息和样本450(在图4中仅示出第一个样本)的列表包含在“mdat”框中。通过使用提取器(451～454，各自表示针对各区块的一个提取器)参考各区块轨来构建区块基轨420的各样本450。各区块轨411～414表示整个视频或整帧视频的空间部分。区块描述(位置、大小、带宽等)存储在各区块轨411～414的轨头部框(未示出)中。使用各轨中的框“TrackReferenceBox”来交叉参考(405)区块基轨和各区块轨。各区块轨411～414参考区块基轨420作为“tbas”轨(“tbas”是如下的特定码，其中该特定码表示从各区块轨向区块基轨的编码依赖性，特别是在何处找到可以设置将处理由文件格式解析所产生的基本流的视频解码器的参数“HEVCDecoderConfigurationRecord”)。相反，为了启用完整视频重建，区块基轨420指示向各区块轨的类型“scal”的依赖性(405)。这是为了指示编码依赖性并且反映区块基轨的样本450定义作为针对区块轨数据的提取器。这些提取器是在解析时可以支持数据缺失的特定提取器。在图4中，为了提供区块的流式版本，将各轨分解成媒体片段(对于区块轨为431～434，并且对于区块基轨为460)。各媒体片段包括利用“moof”框+数据所表示的一个或多个动画片断。对于区块轨，数据部分与视频的空间子部分相对应，而对于区块基轨，数据部分包含参数集、SEI消息(在存在的情况下)以及提取器的列表。流传输应用的情况下的“moov”框401将适合初始化片段。图4仅示出一个片段，但是轨可被分解成任意数量的片段，限制是区块轨的片段和区块基轨的片段遵循相同的时间分解(即，这些片段在时间上对齐)，这是为了使得可以从完整视频向区块和一组区块进行切换。为了简洁起见，这里没有描述该时间分解的粒度。

文件格式具有描述性元数据(举例而言，诸如“VisualSampleGroupEntries”或者“tref”框中的轨参考类型等)，其中这些描述性元数据用于描述轨之间的关系，使得可以通过解析描述性元数据来容易地识别与一个区块相对应的数据、区块或所有的区块的组合。

以下在相同级别上描述静止图像。因而，在用户选择任何区块时，便于图片的区块或所有区块的组合、识别和提取。在将图片与视频数据混合的情况下，描述将与视频的描述性元数据并行。因而，对于相同的数据集，(除视频和音频的索引层外)还针对图片设置附加索引层。

在使用“meta”框的静止图像文件格式中，将具有相关信息的图片描述为信息项。如图5所示，在“meta”框的专用子框“ItemInfoBox”500中列出信息项。该子框提供文件中存在的信息项的数量。该子框还针对各项提供被表示为“ItemInfoEntry”501的描述性元数据。该框的多个版本502(0,1,2,3)根据ISOBMFF标准演变而存在。

“meta”项可能不是连续地存储在文件中。此外，不存在与项数据的交错有关的特定限制。因而，同一文件中的两个项可以共享一个或多个数据块。由于这可以直接地针对各独立可解码区块具有一个项，因此对于HEVC区块而言特别有用(可以连续地或者不连续地存储区块)。该项通过ItemLocationBox来指示主HEVC图片中的数据偏移和区块所使用的条带的长度。

根据实施例，可以添加用于描述区块图片的新的项类型(例如，名为“hvct”或“tile”)，或者可以根据ISO/IEC 14496-15:“hvt1”重复使用该新的项类型。(无论选择哪个四字符码)表示区块图片的各项可以具有针对进行提取的“hvc1”项的类型“tbas”的参考。各项具有标识符“item_ID”503，并且在包含图片的压缩数据的媒体数据框中从字节位置和大小方面在框“ItemLocationBox”中进一步描述。

这种句法使得文件格式读取器(或“解析器”)可以经由信息项的列表来确定有多少具有可用的与类型504(例如，用以表示信息项是完整图片的区块图片的“tile”)有关的信息的信息项。

因而，可以选择文件中的信息项的子集、信息项的组合或信息项的完整集合，以下载图像的仅一个区块和关联的解码器配置，同时跳过其它区块。

对于HEVC区块依赖于另一HEVC区块以进行解码的情况，如在2014年1月圣何塞市MPEG 107的文献w14123,WD of ISO/IEC 14496-15:2013AMD 1,“Enhanced carriage ofHEVC and support of MVC with depth information”中所述，应利用类型“dpnd”的项参考(或者表示编码依赖性的任何特定四字符码)来指示依赖性。

该文献定义了用于(使用“TileRegionGroupEntry”描述符)使HEVC区块NALU与表示区块的空间位置的样本组描述相关联的工具。然而，对于可能允许这些描述符的重复使用的元数据信息项，不存在样本分组的直接等同物。

因此，根据实施例，针对各区块来定义区块描述项，并且如以下所述，使用“ItemReferenceBox”框的修改版本来使区块链接至其描述。

根据其它实施例，优选以通用方式提供仅一个区块化描述。因而，项列表不会变得过长。

设计可以如下所述：

-与样本组相同但特定于各项类型，允许一些项描述一组元数据，

-针对任何项，添加用以针对给定类型的项参考描述一个参数的能力。然后，(与分组类型相同)将根据所参考的项的类型来解释该参数。

如以下参考图6所述，可能需要针对信息项的描述性元数据的升级。

根据ISOBMFF标准，样本分组机制是基于如下所述的具有“grouping_type”参数的两个主要框：

-框“SampleGroupDescriptionBox”具有用于定义属性的列表(列表“SampleGroupEntry”)的参数“sgpd”，

-框“SampleToGroupBox”具有用于定义存在向属性的映射的样本组的列表的参数“sbgp”。

“grouping_type”参数使样本组的列表链接至属性的列表，其中在框“SampleToGroupBox”中指定样本组向列表中的一个属性的映射。

为了向信息项提供相同功能，必须描述信息项组的列表和属性的列表。此外，应当可以将各组信息项映射到属性。

以下说明如何可以将这种描述性元数据嵌入在静止图像文件格式中。换句话说，如何使描述符链接至图像项。即使针对HEVC静止图像文件格式描述使用情况，在诸如ISO/IEC 14496-12等的用于使任何种类的信息项与附加的描述性元数据相关联的其它标准中，也可以使用以下特征。

根据实施例，如图6所示，利用新的版本编号(602和603)来扩展具有参数“infe”的现有“ItemInformationEntry”框601，以经由被称为“iref_type”604的新参数来使各项链接至属性。这样使得可以避免创建新框，并且在保持描述短的同时改善该描述。

通过以下给出ItemInformationEntry框的原始定义：

使区块图片链接至其描述的新版本可以如下：

根据其它实施例，与框“SampleToGroupBox”的定义更相近，例如通过引入具有四字符码“iinf”的框“ItemInformationBox”的新版本来按照如下改变该框的定义：

将当前版本：

改变为：

可选地，为了表示组是否在使用中，当前版本被改变为：

“group_entry_count”参数定义了媒体文件中的信息项组的数量。对于各组信息项，指示从item_ID＝0开始的多个信息项。由于信息项不具有时间限制和关系，因此与样本相反，封装模块可以按任何顺序指派信息项标识符。通过在项组之后指派增加的标识符编号，可以使用用于标识组中的连续信息项标识符的运行的参数item_run来更高效地表示信息组的列表。

相关信息项具有例如被称为“property_index”的索引。与“grouping_type”参数相关联的该“property_index”参数使得文件格式解析器(或“读取器”)能够识别向描述性元数据的参考或描述性元数据本身。图7示出两个典型实施例。

框“SingleItemTypeReferenceBox”701中的组特征可以与组标识“group_ID”、而不是通常用于from_item_ID参数的值的信息项标识(item_ID)一起使用。按照设计，框“SingleItemTypeReferenceBox”使得更容易找到特定种类或来自特定项的所有参考。将该框与“group_ID”而不是“item_ID”一起使用，这使得可以针对一组项进行查找，以容易地识别特定类型的所有参考。有利地，由于针对各封装文件存在最多一个框“ItemInformationBox”，因此不必定义组标识。(编码期间的)封装模块和(解码期间的)解析模块可以在创建或读取信息项组时对该信息项组的列表运行(作为框“ItemInformationBox”中的“g”变量的)各计数器。可选地，可以使用标志“group_used_flag”来通知解析器是否维持组标识计数器。

返回具有与区块图片相对应的一组信息项的示例，一个组可以包含四个条目，并且参考700“SingleItemTypeReference”可以表示四个区块图片信息项所依赖于的信息项704的列表，并且对于特定参考类型703同样如此。

根据其它典型实施例，如下所述，在新种类的框“ItemReferenceBox”中使用信息项，其中该框使得可以根据一个项722列出向各种其它信息项724的多个参考类型723。

对于后者情况，特定框“ItemReferenceBox”721可以实现如下：

对于标准框“ItemInformationBox”，描述了项条目的列表，但这次根据分组按不同的顺序进行该描述。在区块示例中，针对完整图片信息项并且可选地针对EXIF元数据，这可能得到与在具有可被命名为“tile”的参数的组中所收集的区块图片相对应的第一组的四个信息项，其中在这四个信息项之后是配置信息所用的未分组信息项。

因而，修改一个框并且创建作为特定种类的ItemReferenceBox的一个框。以下说明这种新的ItemReferenceBox。

如下所述，还可以通过使用作为ItemReferenceBox的一部分的框“FullBox”中的标志参数在各种ItemReferenceBox之间进行区分，来扩展框“ItemReferenceBox”：

使用框“MultipleItemTypeReferenceBox”721，可以如下所述定义具有四个区块的一个图片：

Item Reference Box(version＝1 or flags＝1)：

fromID＝2，ref_count＝1，type＝′cdsc′，toID＝1；

fromID＝1，ref_count＝1，type＝′init′，toID＝3；

fromID＝4，ref_count＝2，type＝′tbas′，toID＝1，type＝′tile′toID＝8；

fromID＝5，ref_count＝2，type＝′tbas′，toID＝1，type＝′tile′toID＝8；

fromID＝6，ref_count＝2，type＝′tbas′，toID＝1，type＝′tile′toID＝8；

fromID＝7，ref_count＝2，type＝′tbas′，toID＝1，type＝′tile′toID＝8；

该设计使得相对较容易从特定项中找到任何种类的所有参考。

针对参考具有特定类型713的相同项714的项712的列表的描述支持711可以如下：

在具有四个区块的图片的示例中，于是可以具有：

type=′cdsc′，ref_count＝1，fromID＝2，toID＝1；

type＝′init′，ref_count＝1，fromID＝1，toID＝3；

type＝′tbas′，ref_count＝4，fromID＝4，fromID＝5，fromID＝6，fromID＝7，

toID＝1；

type＝′tile′，ref_count＝4，fromID＝4，fromID＝5，fromID＝6，fromID＝7，

toID＝8；

框“SharedItemTypeReferenceBox”的设计使得较容易找到指向特定项的特定类型的所有参考。这与框“SingleItemTypeReferenceBox”形成对比。但由于针对轨参考所定义的大部分“reference_type”不是双向的，因此框“SingleItemTypeReferenceBox”可能无法与一些单向参考类型一起使用，以向其它项通知具有该参考类型的所有节点。可选地，可以在“SingleItemTypeReference”中设置用于指示是直接参考还是间接参考的标志，由此缓解针对新的SharedItemTypeReferenceBox的需求。

鉴于上述，可以使信息项与区块化信息相关联。现在必须提供该区块化信息的描述。

例如，可以使用诸如扩展“ItemInfoEntry”601的“iref_paramete”605等的区块描述符来描述各区块。特定描述符可以如下所述：

根据实施例，可以将描述符用于区块的网格以应用于要存储的一个或多个图片。

这种描述符可以如下所述：

该描述符“TileInfoDataItem”使得能够描述(规则或不规则的)区块化网格。从左上方开始逐行地描述该网格。

该描述符应当作为类型“tile”的项进行存储。在另一项参考该项的情况下，应当使用类型“tile”对该描述的参考，并且应当指定参数“iref_parameter”，该参数的值是利用描述符所定义的网格中的单元格的基于0的索引，其中0是左上方的项，1是紧挨单元格0的右方的单元格，等等。

在描述符中：

-“version”表示TileInfoDataItem的句法的版本。仅定义值0。

-“regular_spacing”表示网格中的所有区块是否具有相同的宽度和相同的高度。

-“reference_width,reference_height”表示描述网格的单位。这些单位可以与或者可以不与参考该项的图像的像素分辨率相匹配。如果网格是规则的，则“reference_width”(或“reference_height”)应是“nb_cell_horiz”(或“nb_cell_vert”)的倍数。

-“cell_width”给出从左方开始的采用非规则区块形式的网格的水平分割。

-“cell_height”给出从顶部开始的采用非规则区块形式的网格的垂直分割。

上述方法使得可以针对所有区块共享区块化信息。

此外，在存在共享相同区块化的多个图片的情况下，可以通过简单地参考区块的网格中的单元格来共享甚至更多的描述。

可以将区块化结构放置在媒体数据框中或者放置在区块信息项之间(通过参考)共享的专用框中。

上述描述符在仅为更大图像中的子图像提供空间位置和大小的意义上，是纯粹的空间描述符。在(例如具有图像集合或图像组合的)一些使用情况中，通常在图像交叠的情况下，空间位置不足以描述图像。这是上述的TileInfoDataBlock描述符的一个限制。为了允许图像组合(无论图像是区块还是独立/完整图像)，定义一方面包含图像的位置和大小(空间关系)并且另一方面包含该图片的显示信息(颜色、裁切、…)的描述符可以是有用的。例如，可以提供颜色信息以将子图像从颜色空间变换成另一颜色空间以供显示。可以在ISOBMFF的ColorInformationBox“colr”中传送这种信息。为了紧凑，仅通过设置要应用的变换参数而不是传送两个不同的如此变换得到的图片来针对不同种类的显示准备相同的数据可以是有用的。同样，可以将如ISOBMFF第12部分中定义的PixelAspectRatio框“pasp”那样的像素高宽比放置在该描述符中，以重新定义可能与各图片的编码后的宽度和高度不同的宽度和高度。这将表示在图像的解码之后显示所要应用的缩放比。然后，将编码后的大小存储在视频样本条目(例如，“stsd”框)中并且根据“pasp”框推导显示大小。另一可能的显示所用的信息可以是同样在ISOBMFF中所定义的通光孔径信息框“clap”。根据标准SMPTE274M，通光孔径限定了如下的区域，其中在该区域内，图片信息在主观上不受所有的边缘瞬态失真(可能为模数转换之后的图像的边界处的环效应)污染。显示所使用的参数的该列表并非限制性的，并且可以将任何其它描述性元数据框作为可选组成部分放置在子图像描述符中。由于这些参数已是标准的一部分并且提供用以指示图像裁切、样本高宽比修改和颜色调整的通用工具，因此可以明确提到这些参数。不利地，这些参数的使用仅能用于媒体轨，而不能用于依赖于“meta”框的图像文件格式。于是，建议例如被称为“SimpleImageMetaData”的新的描述符，以支持图像项的空间描述以及诸如通光孔径或样本高宽比等的其它属性。这适用于意图在更大图像中组成或者相反从更大图像中提取的任何子图像(区块或独立图像)：

或者适用于考虑扩展参数以(例如，通过extra_boxes)帮助显示处理时的子图像的变形：

其中，ImageSpatialRelationBox是如下所述的TileInfoDataBlock的扩展。要考虑的另一有用参数是将图像组合为层的可能性。于是，建议插入用以指示关联至该层状组合中的图像的级别的参数。这在图像交叠的情况下通常有用。这可被称为例如具有层信息指示的“layer”。提供这种描述符的示例性句法：

定义：

Box Type：`isre′

Container：Simple image meta-data item(`simd′)

Mandatory：No

Quantity：Zero or one per item

句法：

具有关联的语义：

horizontal_display_offset指定图像的水平偏移。

vertical_display_offset指定图像的垂直偏移。

display_width指定图像的宽度。

display_height指定图像的高度。

layer指定图像的前后顺序；编号较小的图像更接近观看者。0是正常值，并且-1在层0的前方，等等。

该新的“isre”框类型(box type)给出用以描述图像集合中的某图像相对于其它图像的相对位置的能力。该新的“isre”框类型提供了通常在动画或媒体文件的轨头部框中找到的变换矩阵的功能的子集。在给出制作者预期的集合的显示大小的正方形网格上表示ImageSpatialRelationBox中的坐标；这些单元可以与或者可以不与图像的编码大小相匹配。通过以下来定义预期的显示大小：

-水平方向上：所有“isre”框的(horizontal_display_offset+display_width)的最大值

-垂直方向上：所有“isre”框的(vertical_display_offset+display_height)的最大值

在一些图像没有关联任何“isre”、而文件中的其它图像关联有“isre”的情况下，无任何“isre”的默认图像应当被视为仿佛这些默认图像的水平偏移和垂直偏移都为0，这些默认图像的显示大小是预期的显示大小并且层为0。

ImageSpatialRelationBox表示在对图像应用了任何裁切或样本高宽比之后的图像的相对空间位置。这意味着，在将“isre”与SimpleImageMetaData中的“pasp”等相组合的情况下，对图像进行解码，在存在的情况下应用“pasp”、“clap”、“colr”，然后将图像移动并缩放成“isre”框中所声明的偏移和大小。

该新的描述符可以通过定义表示图像的项信息和表示描述符的项信息之间的关联，而用作图像(区块或单个图像)的描述(假设为SimpleImageMetadata定义给出类型“simd”，则任何保留的四字符码对于mp4解析器而言将是可接受的，以容易地标识当前正处理的元数据的种类)。利用ItemReferenceBox并且利用新的参考类型来进行该关联；“simr”表示“空间图像关系”。以下的示例性描述示出4个图像的组合的情况，其中该组合本身无关联项。各图像项通过类型“simr”的项参考关联至SimpleImageMetaData项，并且共享专用“hvcC”项中的DecoderConfigurationRecord信息。

提供数据的上述组织作为示例：图像和元数据可以在例如媒体数据框中交错，以例如具有图像+作为单字节范围可寻址的元数据。在接收到该描述的情况下，通过解析“simd”项中的信息来向解析器通知子图像是从完整图片中裁切得到、还是相反完整图片是来自子图像的组成。在裁切的情况下，完整图片项和裁切图像将共享与以下示例相同的数据范围和相同的解码器配置信息。然后，将子图像关联至仅具有“clap”信息且无定位、然后无“isre”的“simd”项。

在组合的情况下：在这种情况下，完整图片项关联至仅包含“isre”信息的“simd”项，并且子图像将关联至反映该子图像在完整图像中的位置的“simd”项。

以下示例示出将4个图像组合为更大图像的情况。使用所提出的描述符来将包括组合后的图像的所有图像展现为可播放项。

该其它示例示出完整图片实际上是区块化HEVC图片(4个区块)的情况：

根据使用情况，例如在要将相同的裁切应用于所有图像的情况下，将可以使多个图像项共享相同的元数据。例如在图像之间共享裁切而不是空间信息的情况下，还可以使图像项具有针对不同SimpleImageMetaData的多个“simr”参考。

新版本的ItemInfoEntry(如图6所示)的替代实施例针对各信息项条目和参考来定义一个以上的参数(605)。在图6的实施例中，iref_parameter是在区块索引的情况下使用的四字节码以参考区块化网格中的单元格。但为了具有更丰富的描述并且能够将链接描述嵌入项信息条目本身内而不是利用(mdat框中的)数据，以下扩展可以是有用的：

在以上扩展中：

-item_iref_parameter_count给出针对给出了参数的参考类型的数量。这与图6的项605相比无变化，

-iref_type给出如“iref”框中所示的参考类型，其中参数应用于该项。这与图6的项605相比无变化。

-parameter这里不同于iref_parameter(图6中的项605)，这是因为parameter经由新的框ItemReferenceParameterEntry提供扩展部件。通过使该新的框专门化(如以上利用针对区块化结构中的区块索引的TileIndexItemReferenceParameterEntry所进行的)，假定封装模块和解析模块知晓该专门化框的结构，则可以使任何种类的附加元数据与信息项条目相关联。这可以按照ItemReferenceParameterEntry的标准类型、或者通过按照构造或在协商步骤中设置参数条目的结构来进行。利用具有类型iref_type的项的语义来给出参数的语义。

以下针对用于描述具有4个区块的图片和完整图片的EXIF元数据的信息项提供了典型描述性元数据。

在现有技术中，如这里以下所示，列出区块图片作为未设置有任何相应描述的信息项。此外，没有将表示为“hvcC”类型的设置信息描述为项。这样使得可以对与应用于所有区块图片和完整图片的HEVC参数集和SEI消息有关的共同数据进行因子分解。

根据实施例，使用具有ItemInfoEntry框(601)的版本4(参见图6,602,603)的扩展：列出具有针对还被描述为信息项(ID＝8)的区块化结构的一部分的关联参考的区块图片信息。

图8示出本发明的实施例的实现的上下文。首先，记录不同的媒体：例如，在步骤800a期间记录音频，在步骤800b期间记录视频，并且在步骤800c期间记录一个或多个图片。在各步骤801a、801b和801c期间，对各媒体进行压缩。在这些压缩步骤期间，生成基本流802a、802b和802c。接着，在应用级别(来自图形用户界面的用户选择；多媒体生成系统的结构等)，选择封装模式，以判断是否应当合并所有这些基本流。在启用“合并”模式的情况下(测试803中为“是”)，如上所述，在步骤806c期间将音频、视频和静止图像的数据封装在同一文件中。如果没有启用“合并”模式(测试803中为“否”)，则在步骤806a和806b期间连续地或并行地生成两个封装文件，由此分别导致在步骤807a期间创建同步时间媒体数据的一个文件以及仅具有静止图像907b的附加文件。在步骤806a期间，根据ISOBMFF标准来封装音频和视频的基本流，并且如这里以上所述，在步骤806b期间封装静止图片，以提供区块描述和关注区域特征。最终，获得媒体呈现807并且可以将媒体呈现807提供至DASH生成器，以使媒体呈现807准备好进行流传输(步骤820a)、或者存储到存储器中(步骤820b)、或者渲染在显示单元上(步骤820c)、或者完全地或在通过解析描述性元数据提取了一些部分(诸如区块等)之后发送至远程实体(步骤820d)。

根据实施例的先前描述，应当注意，将例如SimpleImageMetadata(“simd”)框等的描述性元数据(在最新版本的静止图像文件格式规范中也被称为ISOBMFFMetaData)描述为完全型项。如在2014年10月斯特拉斯堡市MPEG110的文献w14878,ISO/IEC 23008-12:2013第1版本的委员会草案研究,“Information technology—MPEG systems technologies—Part 12:Image File Format”中所述，还利用静止图像文件格式规范来定义附加的描述性或规定性的元数据。描述性或规定性的元数据的示例是CleanApertureBox(“clap”)、ImageRotation(“irot”)、ExifDataBlock(“exif”)或ImageOverlay(“iovl”)。更一般地，描述性元数据是针对如图像或子图像那样的项提供附加信息或描述的元数据(例如，Exif元数据)，并且规定性元数据是要应用于项的操作或变换(例如，旋转、裁切或者构成变换运算符的多个项的组合)。

然而，必须将规范中的这种描述性或规定性的元数据存储为完全型项可能相当恼人；这些仅是伪项，从而要求将描述性或规定性的元数据连同编码数据一起存储在mdat框(110)中，并且要求定义itemLocationBox(iloc)(109)、itemInfoBox(iinf)和itemProtectionBox(ipro)中的条目。为此要求iloc、iinf和ipro中的这些条目是相当大的开销。例如，除必须针对itemInfoBox(iinf)中的各条目的总共15个字节的额外成本而定义了item_protection_index(16位)+空的item_name(8位)外，itemInfoBox中的条目还需要使用具有至少12字节的头部的完整框。在更好的情况(base_offset_size＝offset_size＝length_size＝1,1extent)下，itemLocationBox(iloc)中的条目还需要至少9个字节。实际上，itemLocationBox条目与base_offset_size＝offset_size＝length_size＝2或4一起使用，这意味着12或18个字节的额外成本。此外，该元数据通常小，并且使得能够进行其它项的高效读取。将这些元数据存储为专用项，这可能使文件解析、特别是文件的部分获取(例如，HTTP请求的倍增)复杂化。

在替代实施例中，可以将所有描述性和规定性的元数据定义为嵌入项，其中这些嵌入项可被作为其它框的一部分存储在meta框(100)中而不是存储在mdat框(110)中，因而可以避免定义itemInfoBox条目和itemLocationBox条目的额外成本。

为了将描述性和规定性的元数据存储在meta框中，定义了被称为“VirtualItemBox”的虚拟项框。根据本实施例，所有描述性和规定性的元数据都是从该虚拟项类继承来的。

虚拟项被指派有item_ID和item_type以及一组框。虚拟项是通常用于描述元数据以与其它项相关联的附加数据。例如，虚拟项使得能够使用于标识项(图像或子图像)的itemInfoBox的条目与要应用于该项的操作或变换相关联。通常，可以通过在itemReferenceBox中从图像的item_ID向元数据操作或变换描述框的item_ID定义类型“simr”的条目，来描述该关联。可以仅在项参考框和主项框中参考虚拟项，并且不应在任何其它框(例如，itemLocationBox(iloc)、itemInfoBox(iinf)、itemProtectionBox(ipro))中声明或参考虚拟项。“VirtualItemBox”定义如下：

具有针对其参数的以下语义：

item_ID：该项的ID(或标识符)。使iinf、iloc或ipro中的条目具有相同的item_ID值是非法的。

item_type是32位值、通常为4个可打印字符，即诸如“mime”等的定义有效项类型指示符。

可选地，在变形例中，“VirtualItemBox”还可以包括被称为“descriptor_family”的附加参数。描述符族表示元数据框是描述性的还是规定性的元数据。在变形例中，描述符族表示来自预定义值的列表的元数据框的类型。例如，transfo_operator、composed_image、descriptive_metadata…

通过从该虚拟项框继承，可以在无需在itemInfoBox(iinf)和itemLocationBox(iloc)中定义关联条目的情况下在meta框中存储所有描述性和规定性的元数据框，但这些元数据框仍保持可利用项参考框进行寻址的优点。

根据本实施例，ImageOverlay(iovl)、SubSampleItemData(subs)、AuxiliaryConfiguration(auxC)、ExifDataBlock(exif)、SimpleImageMetadata(simd)和派生图像项正从虚拟项类继承。

仍根据本实施例，介绍了具有针对类型“simd”的项的类型“simr”的项参考的被称为“dimg”的单个通用项类型。该方法使得能够在适当的情况下重复使用属性，并且减少项和项参考的数量。将ImageRotationBox添加到SimpleImageMetadata(simd)中。“simr”参考类型定义了从图像项向“simd”项的链接，以提供对图像描述性元数据的直接访问。

另外，如下所述重新设计ImageOverlay(iovl)元数据框，使得该元数据框不再依赖于参考顺序。

针对循环中的各条目添加明确的item_id，以明确地标识所组合的项。

在替代实施例中，将包括到SimpleImageMetadata(simd)中的所有框都定义为从虚拟项框继承来的独立元数据框。

在替代实施例中，如下所述，可以通过将旋转操作直接地集成到图像元数据描述符SimpleImageMetadata(“simd”)框(在最新版本的静止图像文件格式规范中也被称为ISOBMFFMetaData)中，来声明简单图像旋转：

尽管旋转框略大于“irot”项(12个字节)，但由于仅需要一个“simd”而非派生项的级联，因此使用该方法的益处在组合诸如旋转和CleanApperture等的变换的情况下是明确的。

在这种情况下，可以使用(上述的)通用派生项“dimg”来参考图像项和元数据描述这两者。然后，可以列出这种项作为PrimaryItemBox(“pitm”)中的主项。

该方法的另一益处是制作者可以清楚地表明只想要显示旋转项。

以下段落提出上述实施例的替代例。有利地，该替代例在如何能够将变换(或“效果”)应用于采用ISO静止图像文件格式的图像方面很简单。特别地，利用本替代实施例解决了以下问题：

-大量的项参考；

-发生级联时的项的数量越来越多；以及

-不能使给定项组(意指如关注区域那样的图像组或图像部分)的效果相互作用。

现有的解决方案提出使效果相互作用为项的不同范围(意指数据部分中的字节偏移)。更详细地，范围意味着派生图像将被描述为itemLocationBox(“iloc”)中的范围的列表，各范围标识数据部分(“mdat”)的片断，各片断与一个或多个描述性或规定性或变换元数据相对应。

但该解决方案存在固有的多个缺陷：

-封装图像文件的制作变得相当复杂：触摸一个派生图像项中的一个效果暗示着检查所有派生图像以确认这些派生图像是否共享相同的范围，并且潜在地重写该范围的一部分；

-由于图像文件读取器将需要弄清楚一连串的变换/效果在所述文件中的不同项上是否相同(无直接标示)，因此解析并非很简单；

-针对各变换/效果，每当无法将新的变换/效果连同要应用的一连串变换/效果中的变换/效果一起连续地存储时，itemLocationBox(“iloc”)中将需要新的范围。此外，效果的组合或级联在没有存储在数据部分中的连续范围上的情况下可能代价高。

此外，这些解决方案需要暗示了用于存储效果的框的创建的实现存储，以理解其类型(直到目前为止，利用item_type来给出效果的类型)。通过针对该效果定义新的框格式，更简单的解决方案是以与项分开的方式定义效果，并且在项和效果之间具有直接映射而无任何附加成本。

替代实施例通过在文件格式中具有清晰分离来提出效果处理的简化：

-(如以上所提出的，经由“init”或“simr”参考类型或者描述描述性元数据的任何参考类型)与描述性元数据链接的规则项(图像或图像部分)(例如：hvc1、…)；

-“派生图像”，所述派生图像是应用于通过从“派生图像”项向源项的“dimg”项参考所标识的一个或多个源项(图像或图像部分)的效果(或变换)的集合；以及

-表示变换/效果的结构，包括多个不同效果的集合。

该替代实施例的优点如下：

-效果的可重用性：一次声明并且多次潜在参考

-通过定义效果的集合所进行的更紧凑描述(更多详情参见以下)；

-包括不需要itemLocationBox的新范围的整体可读性；以及

-保持项参考的数量少。

根据该替代实施例，利用项类型“dimg”来定义新的单个派生项。通过以下来具体表示该单个派生项：

其中：nb_effects表示要应用于源图像以组成派生图像的效果的数量，并且effect_id是要应用的效果的封装文件中的唯一标识符。这些效果是按效果列表中效果出现的相反顺序来应用。

命名为“DerivedImage”的派生图像或变换项在将图像呈现给例如用户或显示画面之前，将该图像定义为要应用于源图像的一组效果。利用从派生项向源图像的类型“dimg”(或任何保留参考类型)的项参考来标识源图像。源图像自身可以是ISO静止图像文件格式规范中所定义的任何图像项(图像或图像部分、图像交叠、派生图像)。不应存在来自相同项的超过一个的“dimg”项参考(但如果针对各种组合多次重复使用相同项，则针对该项可能存在多个“dimg”项参考)。

将派生图像存储在文件的数据部分中。

在编辑封装文件、例如从图像文件中删除效果的情况下，应当从派生图像中删除针对该效果的所有参考。

可以通过DerivedImage项来向图像、图像部分、组合图像或派生图像应用效果。利用根据以下所示的BaseEffectBox结构推导出的框来描述各效果。

具有以下语义：

effect_type是根据该类推导出的效果的框类型，即标识框的种类的唯一四字符码；

effect_id是给定效果或变换的唯一标识符。该标识符在“meta”框内应当是唯一的。

nb_bits_effect是根据版本值推导出的，并且指示用于表示effect_id的位数。

可以在“meta”框内所包含的可选的EffectDeclarationBox中声明效果：

例如，可以定义以下的效果(非限制性列表)：

-旋转效果：旋转效果使源图像以90度为单位按逆时针方向变换。

语义是：

角度*90：其指定以度为单位的(逆时针方向的)角度

-通光孔径效果：通光孔径效果修改源图像的可见部分。

语义是：

nb_bits_effect是根据父类BaseEffectBox推导出的，并且指示用于表示CleanApertureEffectBox的不同字段的位数；

hSpacing、vSpacing：定义像素的相对宽度和高度；

cleanApertureWidthN、cleanApertureWidthD：定义图像的以计数像素为单位的精确通光孔径宽度的分数；

cleanApertureHeightN、cleanApertureHeightD：定义图像的以计数像素为单位的精确通光孔径高度的分数；

horizOffN、horizOffD：定义通光孔径中心的水平偏移-(宽度-1)/2(通常为0)的分数；

vertOffN、vertOffD：定义通光孔径中心的垂直偏移-(高度-1)/2(通常为0)的分数。

效果集合(Effect Collection)；效果集合框使得能够将一组多个效果定义为单一效果，以将该效果重复用于多个图像，因而降低字节方面的描述成本。

语义是：

nb_bits_effect是根据父类BaseEffectBox推导出的，并且指示用于表示EffectCollectionBox的不同字段的位数。

apply_effect_id：表示要应用于源图像的效果的ID。

按与DerivedImaged项中的效果相同的顺序应用效果集合中的效果；例如，应当将各效果按在效果列表中效果出现的相反顺序应用于输入。

OverlayEffectBox将图像的组合声明为交叠。对于该特定效果，由于该效果声明了作为组合的一部分的源图像的列表，因此如此得到的派生图像没有参考任何源图像。

具有以下语义：

nb_bits_effects是根据父类BaseEffectBox推导出的，并且指示用于表示OverlayEffectBox的不同字段的位数；

fill_required表示在如此得到的组合图像中是否存在要填充背景值的孔；

canvas_fill_value：表示在特定像素位置处不存在任何输入图像的像素的情况下所使用的针对各通道的像素值。如果输入图像包含少于三个通道，则不指定与输入图像中不存在的通道相对应的canvas_fill_value的语义；

nb_images表示要组合的图像的数量，其各自由如image_item_ID参数所示那样的item_ID来标识。

output_width、output_height：分别指定放置有输入图像的输出图像的宽度和高度。将输出图像的图片区域称为画布。

horizontal_offset、vertical_offset：指定从输入图像所在的画布的左上角起的偏移。输出图像中不包括具有负偏移值的像素位置。输出图像中不包括大于或等于output_width的水平像素位置。输出图像中不包括大于或等于output_height的垂直像素位置。

根据本发明的另一方面，与上述实施例相比，根据描述性和/或规定性的元数据是特定图像项所特有还是在多个图像项之间共享，可以进一步优化所有描述性和规定性的元数据的存储。在无需使用字节范围的共享的情况下、或者在无需定义上述实施例所需的项参考的扩展列表的情况下，可以进行这种共享。根据该替代实施例，所有描述性和规定性的元数据仍仅存储在“meta”框(100)中的框层级体系内，从而使得ISOBMFF读取器能够在不必获取“idat”或“mdat”框的情况下解析所有系统信息。因而，(“iinf”框中的)图像项和(“iref”框中的)项参考的数量局限于仅地址媒体数据或者表示多个图像项之间的关系。这种设计使得文件的解析更简单并且使文件格式的高层次理解容易。

本实施例的关键方面是在无需获取任何“mdat”或“idat”框的情况下将所有系统级的项信息装入解析器可访问的专用框(使用ISOBMFF全框)中，并且在项信息条目中包括所有系统级的项信息或者利用项信息条目直接参考所有系统级的项信息。

本实施例介绍以下变化：

-定义被称为SharedItemPropertiesBox(“sitp”)的新的专用框以包含在项之间共享的框结构的描述性和规定性的元数据。

-修改项信息条目(“infe”)以使框结构的描述性和规定性的元数据与项相关联。如果元数据仅与该项有关，则可以将该元数据直接存储在“infe”框中，或者如果在多个项之间共享元数据，则可以将该元数据存储在“sitp”框中并且从“infe”框进行参考。

-用以使得能够在图像项和轨中的样本之间共享相同的初始化数据的新框(表示初始化参数的SampleDescriptionEntryReference“sder”)。

被称为SharedItemPropertiesBox(“sitp”)的新框定义如下：

Box Type：′sitp′

Container：MetaBox(′meta′)

Mandatory：No

Quantity：Zero or One

SharedItemProperties框(专用共享框)包含用于定义可应用于父“meta”框中所声明的多个项的描述性(显示参数)和规定性(变换运算符)元数据(也称为属性)的框的列表。利用来自ItemInfoEntry框的基于0的索引来参考这些框。该框具有以下句法：

关于项信息条目的修改，利用以下语义来定义新版本(4)：ItemInfoEntry框提供了如下的可能性，其中该可能性包括或参考项信息条目中的用于提供该项的属性的附加框。在所包括和所参考的属性的联合中至多应存在给定类型的一个属性。属性可以是依赖于顺序的，在这种情况下，应当使用在ItemInfoEntry框中给出的顺序，即首先应用第一个包括的属性，之后顺次应用所有其它包括的属性，然后应用所有所参考的属性。

按照如下规定附加句法：

关联句法如下：

included_prop_count：包括到阵列item_properties中的属性(描述性或规定性的元数据)的数量。

item_properties：提供该项的附加信息的框的阵列或框的表格(项信息的属性)。所容许的框与SharedItemPropeIties框相同。

indexed_prop_count：针对SharedItemProperties框中的属性的参考的数量。

box_prop_idx：针对“meta”框的SharedItemProperties框中所存储的框的列表的基于0的索引。

根据本实施例，所有的描述性和规定性的元数据是要存储到SharedItemProperties框中或要存储到ItemInfoEntry框内的item_properties阵列中的ISOBMFF全框。

例如，图像旋转的规定性元数据定义如下：

Box Type：′irot′

Container：SharedItemProperties

Mandatory：No

Quantity：Zere or more.

图像旋转框提供以90度为单位的逆时针方向上的旋转角度。应当存在被指派为图像项的属性的仅一个这种框。该框的句法定义如下：

具有以下的属性语义：

version应等于0。

flags应等于0。

角度*90指定以度为单位的(逆时针方向的)角度。

图像交叠的规定性元数据定义如下：

Box Type：′iovl′

Container：SharedItemProperties

Mandatory：No

Quantity：Zero or more.

图像交叠框在较大画布内按给定层叠顺序对一个或多个输入图像进行定位。在针对包括或参考该框作为属性的派生图像项的类型“dimg”的SingleItemTypeReferenceBox中，按层叠的顺序(即，最下面的输入图像为第一个且最上面的输入图像为最后一个)列出输入图像。应当存在被指派为图像项的属性的仅一个这种框。

该框的句法定义如下：

具有以下的属性语义：

version应等于0。

(flags&1)等于0规定了字段output_width、output_height、horizontal_offset和vertical_offset的长度为16位。(flags&1)等于1规定了字段output_width、output_height、horizontal_offset和vertical_offset的长度为32位。保留大于1的flags的值。

canvas_fill_value：表示在特定像素位置处不存在任何输入图像的像素的情况下所使用的针对各通道的像素值。将填充值指定为RGBA(与循环计数器j相对应的R、G、B和A分别等于0、1、2和3)。如在IEC 61966-2-1中所定义的，RGB值在sRGB颜色空间中。A值是0(完全透明)～65535(完全不透明)的线性不透明度值。

output_width、output_height：分别指定放置有输入图像的输出图像的宽度和高度。将输出图像的图像区域称为画布。

reference_count是从类型“dimg”的SingleItemTypeReferenceBox获得的，其中利用from_item_ID字段来标识使用该框的项。

图像网格的规定性元数据定义如下：

Box Type：′grid′

Container：SharedItemProperties

Mandatory：No

Quantity：Zero or more.

图像网格框在较大画布内按给定网格顺序根据一个或多个输入图像形成输出图像。应当存在被指派为图像项的属性的仅一个这种框。针对使用ItemReferenceBox内的该框的派生图像项，按类型“dimg”的SingleItemTypeReferenceBox的顺序，按主行的顺序(从左上行开始从左向右)插入输入图像。应当存在从该项向输入图像的rows*columns项参考。所有输入图像应当具有完全相同的宽度和高度：将这些宽度和高度称为tile_width和tile_height。区块化输入图像应当完全“覆盖”输出图像网格画布，其中tile_width*columns大于或等于output_width，并且tile_height*rows大于或等于output_height。输出图像是通过以下操作所形成的：使输入图像无间隙或交叠地区块化成列宽度(潜在地排除最右方的列)等于tile_width且行高度(潜在地排除最底部的行)等于tile_height的网格，然后在右方和底部上裁切成所指示的output_width和output_height。

该框的句法定义如下：

具有以下的属性语义：

version应当等于0。

(flags&1)等于0指定了字段output_width、output_height的长度为16位。(flags&1)等于1指定了字段output_width、output_height的长度为32位。保留大于1的flags的值。

rows、columns：指定输入图像的行数和各行的输入图像的数量。按项参考的顺序，输入图像首先填充顶行，之后填充第二行及其后续行。

同样地，所有的其它规定性和描述性元数据(诸如辅助配置框(“auxC”)、图像空间范围框(“ispe”)、像素信息框(“pixi”)、相对位置框(“rloc”)、通光孔径框(“clap”)(非限制性列表)都是从ISOBMFF全框继承来的。

根据本实施例，在项包括针对作为派生的输入的一个或多个其它图像项的“dimg”项参考的情况下，该项是派生图像。派生图像是通过对所指定的输入图像进行诸如旋转等的指定操作所获得的。利用项的item_type来标识为了获得派生图像所进行的操作。用作针对派生图像的输入的图像项可以是编码图像，或者这些图像项可以是其它派生图像项。

例如，利用item_type值“clap”来标识通光孔径派生图像项。该通光孔径派生图像项没有存储数据且不应具有“iloc”表格中的关联条目。该通光孔径派生图像项应当包括或参考如在ISO/IEC 14496-12中定义的类型CleanApertureBox的项属性。该通光孔径派生图像项应当具有针对图像项的类型“dimg”的项参考。作为另一示例，利用item_type值“irot”来标识图像旋转派生图像项。该图像旋转派生图像项不具有数据且不应具有“iloc”表格中的关联条目。该图像旋转派生图像项应当包括或参考如以上所定义的类型ImageRotationBox的项属性。该图像旋转派生图像项应当具有针对图像项的类型“dimg”的项参考。

同样，利用item_type“iovl”来标识图像交叠派生图像项。该图像交叠派生图像项不具有数据且不应具有“iloc”表格中的关联条目。该图像交叠派生图像项应当包括或参考如以上所定义的类型ImageOverlayBox的项属性。该图像交叠派生图像项应当具有针对一组图像项的类型“dimg”的项参考。利用item_type值“grid”来标识图像网格派生图像项。该图像网格派生图像项不具有数据且不应具有“iloc”表格中的关联条目。该图像网格派生图像项应当包括或参考如以上所定义的类型ImageGridBox的项属性。该图像网格派生图像项应当具有针对一组图像项的类型“dimg”的项参考。

以下是展示使用SharedItemProperties框和扩展ItemInfoEntry框来将描述性和规定性的元数据(或属性)指派至图像的一些示例。

在以下示例中，将两个属性框(“hvcC”和“ispe”)指派至直接位于阵列item_properties中的关联itemInfoEntry内的图像项：

在以下示例中，除前述示例外，以相同方式将图像旋转运算符(“irot”)指派至图像项：

在以下示例中，具有不同的HEVC结构的多个图像共享在存储到SharedItemProperty框(“sitp”)中的共同图像空间范围框(“ispe”)中所描述的相同尺寸。各图像itemInfoEntry框包含其自身的HEVC结构框(“hvcC”)，并且使用针对SharedItemProperty框的索引(项属性索引)以参考共同图像空间范围框(“ispe”)：

表的条目item properties indices构成一组标识符。另一组标识符由专用共享框[SharedItemPropertiesBox](这里为“0”)中的图像描述信息(这里为“ispe”)的排名构成。

在另一实施例中，其它标识符可以由指派至专用共享框中的图像描述信息的另一ID构成。例如，可以通过从(上述的)“VirtualItemBox”而不是ISOBMFF“fullbox”继承来定义指派至图像描述信息的该另一ID。本实施例有利地允许在不影响所设置的标识符的情况下对专用共享框中的图像描述信息进行重新排序。

这两组标识符构成了用于使[利用ItemInfoBox中的条目表示的]图像项信息链接至至少一个图像描述信息的结构。

以下示例描述包括旋转网格中的多个图像的派生图像。组成网格的所有图像经由定位到SharedItemProperty框中并且经由框属性索引所参考的“hvcC”框和“ispe”框，来共享相同的HEVC结构和相同的图像尺寸。经由包含图像网格框的itemInfoEntry来描述表示网格的派生图像。利用关联至派生图像的图像旋转框来描述要应用的旋转。经由项参考框(“iref”)框中的项参考条目来参考要组成派生图像的输入图像：

以下示例描述了HEVC区块化图像。在该示例中，所有的项(全图像(itemID＝1)和区块(itemID＝2,3,4,5))共享相同的HEVC结构框，并且所有的区块共享经由SharedItemPropertiesBox定义区块大小(Wt,Ht)的相同图像空间范围框。另外，所有区块项包含自身的提供各区块的x、y坐标的相对位置框(“rloc”)：

另外，一些图像格式需要用于对图像项数据进行解码的初始化数据。该初始化数据是编解码特有的，并且可以与针对视频轨所指定的解码器结构记录相同或相似。在这种情况下，共享初始化数据而不是按文件格式重复初始化数据是有用的。如果需要这种初始化数据，则利用特定类型的描述性元数据(属性)在项信息中设置这种初始化数据。多个图像项可以共享相同的这种属性。为了使得能够在图像项和轨的一些样本之间共享相同的初始化数据，如下所述定义被称为SampleDescriptionEntryReference(“sder”)的新的描述性元数据框：

Box Type：′sder′

Container：SharedItemProperties

Mandatory：No

Quantity：Zero or more.

SampleDescriptionEntryReferenceBox使得能够表示图像项重复使用与轨的一些样本相同的初始化数据。SampleDescriptionEntryReferenceBox标识轨和该轨的这些样本的样本描述条目。该框具有以下句法：

针对其参数具有以下语义：

track_ID：重复使用初始化的轨的标识符。

sample_description_index：描述该项中的数据的关联轨中的样本条目的基于1的索引。

以下示例展示了经由关联至图像itemInfoEntry的SampleDescriptionEntryReference框(“sder”)的、轨和图像项之间的HEVC结构的共享：

在图像项数据表示HEVC区块的情况下，各HEVC区块项应当包括或参考具有对HEVC区块项中存在的区块进行解码所需的所有参数集的类型HEVCConfigurationBox的属性。多个HEVC区块项可以共享相同的HEVCConfigurationBox属性。HEVC区块项还应当包括或参考表示各HEVC图像项内的HEVC区块项的位置的RelativeLocationBox属性(“rloc”)。与属于不同HEVC图像的区块相对应的多个HEVC区块项可以共享相同的RelativeLocationBox。ImageSpatialExtentsBox属性(“ispe”)应当用于各HEVC区块项。ImageSpatialExtentsBox的display_width和display_height应当被设置为HEVC区块项的宽度和高度。

在上述替代实施例的变形例中，代替将所有共享的描述性和规定性的元数据分组到单个容器SharedItemPropertiesBox中，可以定义两个不同的容器框，其中一个容器框专用于描述性元数据并且另一容器框专用于规定性元数据。在这种情况下，扩展ItemInfoEntry包含两个不同的属性索引阵列(box_prop_idx和box_ope_idx)，或者元数据的类型(描述性或规定性)被关联至属性索引阵列(box_prop_idx)的各条目以检索关联容器。

box_prop_idx和box_ope_idx的条目构成一组标识符。另一组标识符由两个专用共享框中的图像描述信息的排名构成。

在另一实施例中，另一组标识符可以由分配至各专用共享框中的图像描述信息的其它ID构成。本实施例有利地允许在不影响该组标识符的情况下对专用共享框中的图像描述信息进行重新排序。

在附录中说明本发明的该最后一个方面的更多示例。

在本发明的另一方面中，所有的描述性和规定性的元数据仍可被分组到与SharedItemPropertiesBox相同的一个或两个框中，然而不是修改itemInfoEntry框，而是可以使用项参考框来使图像项与这些图像项的描述性和规定性的元数据相关联。在该替代实施例中，定义两个不同的容器框，其中一个容器框用于描述性属性(例如，SharedItemProperties)并且另一容器框用于规定性属性(例如，SharedItemOperators)：

代替修改“infe”框，使用itemReferenceBox“iref”框来使图像和派生图像项关联至它们的描述性元数据和规定性元数据(也称为运算符)。

定义两个新的参考类型：例如，用于描述性元数据的“sipr”和用于规定性元数据的“sior”。

根据关系类型(“sipr”或“sior”)，项参考框中的“to_item_ID”参数被解释为分别向着SharedItemPropertiesBox或SharedItemOperatorsBox的索引。关联至“to_item_ID”的参考类型(这里为“sipr”或“sior”)构成了用于使(利用ItemInfoBox中的条目表示的)图像项信息链接至图像描述信息(描述性元数据和规定性元数据)的结构。

对于任何其它现有的参考类型，属性“to_item_ID”仍被解释为指向ItemInfoBox中的itemID。

以下是使用“sipr”和“sior”关系类型来描述旋转网格中的多个图像的示例：

作为变形例，共享框中的各图像描述信息关联至适当的ID。本实施例有利地允许在不影响标识符的情况下对专用共享框中的图像描述信息进行重新排序。

在变形例中，各现有的参考类型隐含地关联至itemInfoBox、SharedItemProperties框或SharedItemOperators框。例如，描述性元数据的参考类型(诸如“ispe”、“rloc”、“clap”或“hvcC”等)与SharedItemProperties框相关联，并且规定性元数据的参考类型(诸如“irot”、“iovl”、“grid”等)与SharedItemOperators框相关联。

图9是用于实现本发明的一个或多个实施例的计算装置900的示意性框图。计算装置900可以是诸如微计算机、工作站或轻型便携式装置等的装置。计算装置900包括通信总线，其中该通信总线连接至以下组件：

-诸如微处理器等的表示为CPU的中央处理单元901；

-表示为RAM的随机存取存储器902，用于存储本发明的实施例的方法的可执行代码以及如下寄存器，其中这些寄存器被配置为记录实现用于读取和写入清单以及/或者对视频进行编码以及/或者读取或生成采用给定文件格式的数据的方法所需的变量和参数，其中RAM 902的存储器容量例如可以利用连接至扩展端口的可选RAM来扩展；

-表示为ROM的只读存储器903，用于存储实现本发明的实施例所用的计算机程序；

-网络接口904，其通常连接至进行要处理的数字数据的发送或接收所经由的通信网络。网络接口904可以是一个网络接口、或者包括不同的网络接口的集合(例如，有线接口和无线接口或者不同种类的有线接口或无线接口)。在CPU 901中所运行的软件应用的控制下，将数据写入网络接口以供发送或者从网络读取数据以供接收；

-用户接口905，用于从用户接收输入或向用户显示信息；

-表示为HD的硬盘906；

-I/O模块907，用于相对于诸如视频源或显示器等的外部装置进行数据的发送/接收。

可执行代码可以存储在只读存储器903中、硬盘906上或者诸如盘等的可移除数字介质上。根据变形例，程序的可执行代码可以在执行之前利用通信网络经由网络接口904来接收，从而存储在通信装置900的诸如硬盘906等的存储部件其中之一内。

中央处理单元901被配置为控制和引导根据本发明实施例的程序的指令或软件代码的一部分的执行，其中这些指令存储在上述存储部件其中之一内。在通电时，CPU 901例如能够在从程序ROM 903或硬盘(HD)906下载了来自主RAM存储器902的与软件应用有关的指令之后，执行这些指令。这种软件应用在由CPU 901执行的情况下，使得进行根据实施例的方法的步骤。

可选地，本发明可以以硬件形式(例如，以专用集成电路或ASIC的形式)来实现。

例如，本发明可以嵌入用作TV的遥控器的如照相机、智能电话或平板电脑那样的装置中，以例如放大到特定关注区域上。还可以从相同装置使用本发明，以通过选择特定关注区域来获得TV程序的个性化浏览体验。用户根据这些装置的另一用途是与其它连接的装置共享他所喜好的视频中的一些选中的子部分。本发明还可用在智能电话或平板电脑中以监视在处于监控下的建筑物的特定区域中发生了什么，只要监控照相机支持根据本发明的生成部即可。

尽管已经在附图和前述说明中详细例示并说明了本发明，但这些例示和说明应被视为说明性或例示性而非限制性的，其中本发明不限于所公开的实施例。本领域技术人员在根据针对附图、公开内容和所附权利要求书的研究实践要求保护的发明时，可以理解并实现所公开的实施例的其它变形例。

在权利要求书中，词语“包括”并未排除其它要素或步骤，并且不定冠词“a”或“an”并未排除多个。单个处理器或其它单元可以实现权利要求书所记载的多个项的功能。在相互不同的从属权利要求中记载不同特征这一事实并不表示无法有利地利用这些特征的组合。权利要求书中的任何附图标记不应被视为限制本发明的范围。

附录

示例1：单个图像

示例2：具有旋转的单个图像

示例3：具有旋转和通光孔径的单个图像

示例4：尺寸相同但HEVC结构不同的多个图像

示例5：HEVC结构和尺寸都相同的多个图像

示例6：HEVC结构和尺寸都相同但旋转不同的多个图像

示例7：采用网格的多个图像

示例8：采用旋转网格的多个图像

示例9：具有交叠的多个图像

示例10：一个图像及其旋转版本

示例11：区块化图像

示例12：具有与主图像相同的HEVC结构和尺寸的辅图像

示例13：具有子样本描述的图像

示例14：轨和项之间的共享HEVC结构

Claims

1.一种用于对表示一个或多个图像的编码位流进行封装的方法，封装位流包括数据部分和元数据部分，所述方法包括以下步骤：

-将所述位流连同所提供的信息一起输出为封装数据文件，

其中，所述图像项信息包括一个或多个属性，所述一个或多个属性包括所述图像描述信息中的专用于所考虑的子图像或单个图像或一组单个图像的至少一部分，所述图像描述信息是在一个或多个框中所定义的。

2.根据权利要求1所述的方法，其中，所述图像项信息是框，并且各图像项信息的属性是框，其中对属性框进行组织以形成框的表格。

3.根据权利要求2所述的方法，其中，按照出现顺序或者框的表格中的相应框，来向所述子图像或所述图像和/或所述一组单个图像应用各属性。

4.根据权利要求1至3中任一项所述的方法，其中，所述子图像或所述单个图像和/或所述一组单个图像与视频序列有关，所述图像项信息的属性其中之一包括一个或多个初始化参数以参考所述视频序列的初始化信息。

5.根据权利要求1至4中任一项所述的方法，其中，在一个专用共享框中定义所述图像描述信息中的在多个子图像或多个单个图像和/或一组单个图像之间共享的部分，其中各图像描述信息是能够经由用于使所考虑的图像项信息链接至至少一个图像描述信息的链接结构进行检索的，所述链接结构包括：

6.根据权利要求1至4中任一项所述的方法，其中，在两个专用共享框中定义所述图像描述信息中的在多个子图像或多个单个图像和/或一组单个图像之间共享的部分，一个专用共享框与所述显示参数有关并且另一专用共享框与所述变换运算符有关，各图像描述信息是能够经由用于使所述图像项信息链接至至少一个图像描述信息的链接结构进行检索的。

7.根据权利要求6所述的方法，其中，所述链接结构包括使所述图像项信息和至少一个图像描述信息链接的两个参考类型参数，其中各参考类型参数是所述专用共享框其中之一特有的。

8.根据权利要求6所述的方法，其中，所述链接结构包括：

9.根据权利要求1至8中任一项所述的方法，其中，所述显示参数其中之一是用于定义与单个图像的各部分相对应的一组单个图像的网格。

10.根据权利要求1至9中任一项所述的方法，其中，所述一组单个图像中的各图像与同一单个图像有关。

11.一种用于获得表示一个或多个图像的封装位流的方法，所述封装位流包括编码数据部分和元数据部分，所述方法包括以下步骤：

其中，所述图像项信息包括一个或多个属性，所述一个或多个属性包括所述图像描述信息中的专用于所考虑的子图像或单个图像或一组单个图像的至少一部分，所述图像描述信息是在一个或多个框中定义的。

12.根据权利要求11所述的方法，其中，所述图像项信息是框，并且各图像项信息的属性是框，其中对属性框进行组织以形成框的表格。

13.根据权利要求12所述的方法，其中，按照出现顺序或者框的表格中的相应框，来向所述子图像或所述图像和/或所述一组单个图像应用各属性。

14.根据权利要求11至13中任一项所述的方法，其中，所述子图像或所述单个图像和/或所述一组单个图像与视频序列有关，所述图像项信息的属性其中之一包括一个或多个初始化参数以参考所述视频序列的初始化信息。

15.根据权利要求11至14中任一项所述的方法，其中，在一个专用共享框中定义所述图像描述信息中的在多个子图像或多个单个图像和/或一组单个图像之间共享的部分，其中各图像描述信息是能够经由用于使所考虑的图像项信息链接至至少一个图像描述信息的链接结构进行检索的，所述链接结构包括：

16.根据权利要求11至14中任一项所述的方法，其中，在两个专用共享框中定义所述图像描述信息中的在多个子图像或多个单个图像和/或一组单个图像之间共享的部分，一个专用共享框与所述显示参数有关并且另一专用共享框与所述变换运算符有关，各图像描述信息是能够经由用于使所述图像项信息链接至至少一个图像描述信息的链接结构进行检索的。

17.根据权利要求16所述的方法，其中，所述链接结构包括使所述图像项信息和至少一个图像描述信息链接的两个参考类型参数，其中各参考类型参数是所述专用共享框其中之一特有的。

18.根据权利要求16所述的方法，其中，所述链接结构包括：

19.根据权利要求11至18中任一项所述的方法，其中，所述显示参数其中之一是用于定义与单个图像的各部分相对应的一组单个图像的网格。

20.根据权利要求11至19中任一项所述的方法，其中，所述一组单个图像中的各图像与同一单个图像有关。

21.一种用于对表示一个或多个图像的编码位流进行封装的装置，所述装置被配置为实现根据权利要求1至10中任一项所述的方法。

22.一种用于对表示一个或多个图像的封装位流进行处理的装置，所述装置被配置为实现根据权利要求11至20中任一项所述的方法。

23.一种系统，包括：

-根据权利要求21所述的第一装置；以及

-根据权利要求22所述的第二装置，用于对来自所述第一装置的文件进行处理。

24.一种计算机程序产品，其包括用于在利用可编程设备加载并执行程序的情况下实现根据权利要求1至20中任一项所述的方法的指令。

25.一种非暂时性信息存储部件，其能够由用于存储计算机程序的指令的计算机或微处理器进行读取，所述指令用于在利用所述计算机或所述微处理器加载并执行所述计算机程序的情况下实现根据权利要求1至20中任一项所述的方法。

26.一种大致如以上参考附图中的图9所述且如图9所示的装置。

27.一种大致如以上参考附图中的图8所述且如图8所示的方法。

28.一种用于对表示一个或多个图像的编码位流进行封装的方法，封装位流包括数据部分和元数据部分，所述方法包括以下步骤：

-将所述位流连同所提供的信息一起输出为封装数据文件，

29.根据权利要求28所述的方法，其中，所述图像描述信息是在一个专用框中定义的，所述链接结构包括使所述图像项信息和至少一个图像描述信息链接的参考类型参数。

30.根据权利要求28所述的方法，其中，所述图像描述信息是在一个或两个专用框中定义的，所述链接结构包括用于使所述图像项信息和至少一个图像描述信息链接的一组或两组索引，其中各组索引关联至所述专用框其中之一。

31.根据权利要求28或30所述的方法，其中，所述图像描述信息是在两个专用框中定义的，其中一个专用框与所述显示参数有关并且另一专用框与所述变换运算符有关。

32.根据权利要求31所述的方法，其中，所述图像描述信息是在两个专用框中定义的，所述链接结构包括分别关联至所述两个专用框中的各专用框的两个参考类型参数，各参考类型参数在关联的专用框中使所述图像项信息和至少一个图像描述信息链接。

33.一种用于获得表示一个或多个图像的封装位流的方法，所述封装位流包括编码数据部分和元数据部分，所述方法包括以下步骤：

34.根据权利要求33所述的方法，其中，所述图像描述信息是在一个专用框中定义的，所述链接结构包括使所述图像项信息和至少一个图像描述信息链接的参考类型参数。

35.根据权利要求33所述的方法，其中，所述图像描述信息是在一个或两个专用框中定义的，所述链接结构包括用于使所述图像项信息和至少一个图像描述信息链接的一组或两组索引，其中各组索引关联至所述专用框其中之一。

36.根据权利要求33或35所述的方法，其中，所述图像描述信息是在两个专用框中定义的，其中一个专用框与所述显示参数有关并且另一专用框与所述变换运算符有关。

37.根据权利要求36所述的方法，其中，所述图像描述信息是在两个专用框中定义的，所述链接结构包括分别关联至所述两个专用框中的各专用框的两个参考类型参数，各参考类型参数在关联的专用框中使所述图像项信息和至少一个图像描述信息链接。

38.一种用于对表示一个或多个图像的编码位流进行封装的装置，所述装置被配置为实现根据权利要求28至32中任一项所述的方法。

39.一种用于对表示一个或多个图像的封装位流进行处理的装置，所述装置被配置为实现根据权利要求33至37中任一项所述的方法。

40.一种系统，包括：

-根据权利要求38所述的第一装置；以及

-根据权利要求39所述的第二装置，用于对来自所述第一装置的文件进行处理。

41.一种计算机程序产品，其包括用于在利用可编程设备加载并执行程序的情况下实现根据权利要求28至37中任一项所述的方法的指令。

42.一种非暂时性信息存储部件，其能够由用于存储计算机程序的指令的计算机或微处理器进行读取，所述指令用于在利用所述计算机或所述微处理器加载并执行所述计算机程序的情况下实现根据权利要求28至37中任一项所述的方法。

43.一种大致如以上参考附图中的图9所述且如图9所示的装置。

44.一种大致如以上参考附图中的图8所述且如图8所示的方法。