CN116527929A

CN116527929A - 媒体文件传输方法、封装方法以及解封装方法

Info

Publication number: CN116527929A
Application number: CN202210068295.0A
Authority: CN
Inventors: 胡颖
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-01-20
Filing date: 2022-01-20
Publication date: 2023-08-01

Abstract

本申请提供了一种媒体文件传输方法、封装方法以及解封装方法。该方法涉及多媒体领域中文件传输技术领域，该包括：获取媒体资源描述文件，该媒体资源描述文件包括多个媒体文件的描述文件；在该多个媒体文件的描述文件中选择目标媒体文件的描述文件；该目标媒体文件包括该目标媒体文件中的目标图像的扩展信息；基于该目标媒体文件的描述文件发送资源请求，该资源请求用于请求该目标媒体文件；接收该目标媒体文件；响应于在该目标图像的目标区域上执行的选择操作，呈现该扩展信息或呈现用于用户对该扩展信息执行操作的控件。本申请提供的媒体文件传输方法能够提升用于的观看体验。

Description

媒体文件传输方法、封装方法以及解封装方法

技术领域

本申请实施例涉及多媒体领域中文件传输技术领域，并且更具体地，涉及媒体文件传输方法、封装方法以及解封装方法。

背景技术

针对图像中的文本信息，有对图像中文本进行实时识别的技术。但是，这种技术依托于设备本身，对图像中文本的识别受限于设备，不具备可移植性。同样，现有技术中，针对图像中包含的商品信息，有直接将商品链接以二维码形式显示包含于图像中的技术。但这种技术也不具备跨越应用软件的可移植性。同时，如果是视频图像中的商品信息，在图像中显示二维码也会给用户带来较差的观看体验。

发明内容

本申请提供了一种媒体文件传输方法、封装方法以及解封装方法，能够提升用于的观看体验。

一方面，本申请提供了一种媒体文件传输方法，包括：

获取媒体资源描述文件，该媒体资源描述文件包括多个媒体文件的描述文件；

在该多个媒体文件的描述文件中选择目标媒体文件的描述文件；该目标媒体文件包括该目标媒体文件中的目标图像的扩展信息，该扩展信息用于描述该目标图像的文本属性或资源属性，或该扩展信息用于当该目标媒体文件为视频文件时，描述该目标媒体文件的资源元数据轨道或资源实体组；

基于该目标媒体文件的描述文件发送资源请求，该资源请求用于请求该目标媒体文件；

接收该目标媒体文件；

响应于在用户在该目标图像的目标区域上执行的选择操作，基于该扩展信息呈现该扩展信息或呈现用于用户对该扩展信息执行操作的控件。

另一方面，本申请提供了一种媒体文件传输方法，包括：

向客户端发送媒体资源描述文件，该媒体资源描述文件包括多个媒体文件的描述文件；

接收该客户端发送的资源请求，该资源请求用于请求该多个媒体文件中的目标媒体文件；该目标媒体文件包括该目标媒体文件中的目标图像的扩展信息，该扩展信息用于描述该目标图像的文本属性或资源属性，或该扩展信息用于当该目标媒体文件为视频文件时，描述该目标媒体文件的资源元数据轨道或资源实体组；

向该客户端发送该目标媒体文件。

另一方面，本申请提供了一种媒体文件封装方法，包括：

获取对目标图像或包括该目标图像的视频进行编码得到的码流；

对该码流进行封装，得到包括该目标图像的扩展信息的目标媒体文件，该扩展信息用于描述该目标图像的文本属性或资源属性，或该扩展信息用于当该目标媒体文件为视频文件时，描述该目标媒体文件的资源元数据轨道或资源实体组。

另一方面，本申请提供了一种媒体文件解封装方法，包括：

获取目标媒体文件；

基于对该目标媒体文件进行解封装得到目标图像的扩展信息或得到该目标图像的码流和该目标图像的扩展信息，该扩展信息用于描述该目标图像的文本属性或资源属性，或该扩展信息用于当该目标媒体文件为视频文件时，描述该目标媒体文件的资源元数据轨道或资源实体组。

另一方面，本申请提供了一种客户端，包括：

获取单元，用于获取媒体资源描述文件，该媒体资源描述文件包括多个媒体文件的描述文件；

选择单元，用于在该多个媒体文件的描述文件中选择目标媒体文件的描述文件；该目标媒体文件包括该目标媒体文件中的目标图像的扩展信息，该扩展信息用于描述该目标图像的文本属性或资源属性，或该扩展信息用于当该目标媒体文件为视频文件时，描述该目标媒体文件的资源元数据轨道或资源实体组；

发送单元，用于基于该目标媒体文件的描述文件发送资源请求，该资源请求用于请求该目标媒体文件；

接收单元，用于接收该目标媒体文件；

响应单元，用于响应于在用户在该目标图像的目标区域上执行的选择操作，基于该扩展信息呈现该扩展信息或呈现用于用户对该扩展信息执行操作的控件。

另一方面，本申请提供了一种服务器，包括：

发送单元，用于向客户端发送媒体资源描述文件，该媒体资源描述文件包括多个媒体文件的描述文件；

接收单元，用于接收该客户端发送的资源请求，该资源请求用于请求该多个媒体文件中的目标媒体文件；该目标媒体文件包括该目标媒体文件中的目标图像的扩展信息，该扩展信息用于描述该目标图像的文本属性或资源属性，或该扩展信息用于当该目标媒体文件为视频文件时，描述该目标媒体文件的资源元数据轨道或资源实体组；

该发送单元还用于向该客户端发送该目标媒体文件。

另一方面，本申请提供了一种服务器，包括：

获取单元，用于获取单元，获取对目标图像或包括该目标图像的视频进行编码得到的码流；

封装单元，用于对该码流进行封装，得到包括该目标图像的扩展信息的目标媒体文件，该扩展信息用于描述该目标图像的文本属性或资源属性，或该扩展信息用于当该目标媒体文件为视频文件时，描述该目标媒体文件的资源元数据轨道或资源实体组。

另一方面，本申请提供了一种客户端，包括：

获取单元，获取目标媒体文件；

解封装单元，用于基于对该目标媒体文件进行解封装得到目标图像的扩展信息或得到该目标图像的码流和该目标图像的扩展信息，该扩展信息用于描述该目标图像的文本属性或资源属性，或该扩展信息用于当该目标媒体文件为视频文件时，描述该目标媒体文件的资源元数据轨道或资源实体组。

另一方面，本申请提供了一种客户端，包括：

处理器，适于实现计算机指令；以及，

计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令适于由处理器加载并执行上述第一方面或第四方面的方法。

另一方面，本申请提供了一种服务器，包括：

处理器，适于实现计算机指令；以及，

计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令适于由处理器加载并执行上述第二方面或第三方面的方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机指令，该计算机指令被计算机设备的处理器读取并执行时，使得计算机设备执行上述第一方面或第四方面提供的媒体文件传输方法。

另一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述第一方面或第四方面提供的媒体文件方法。

基于以上技术方案，本申请针对目标媒体文件中的目标图像引入了扩展信息，基于此，客户端在接收到目标媒体文件后，可响应于在用户在该媒体文件的目标图像的目标区域上执行的选择操作，基于该扩展信息呈现该扩展信息或呈现用于用户对该扩展信息执行操作的控件，相当于，能够使得该目标图像包括的扩展信息具备可观看性以及可移植性，可以支持更多样化的图像、视频应用形式，进而能够提升用户体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种视频编解码系统的示意性框图。

图2是本申请实施例提供的视频编码器的示意性框图。

图3是本申请实施例提供的解码框架的示意性框图。

图4是本申请实施例提供的媒体文件传输方法的示意性流程图。

图5是本申请实施例提供的媒体文件传输方法的另一示意性流程图。

图6是本申请实施例提供的媒体文件封装方法的示意性流程图。

图7是本申请实施例提供的媒体文件解封装方法的示意性流程图。

图8是本申请实施例提供的客户端的示意性框图。

图9是本申请实施例提供的服务器的示意性框图。

图10是本申请实施例提供的服务器的另一示意性框图。

图11是本申请实施例提供的客户端的另一示意性框图。

图12是本申请实施例提供的电子设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供的方案可涉及人工智能技术。

其中，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

应理解，人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例可涉及人工智能技术中的计算机视觉(Computer Vision,CV)技术，计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本申请提供的方案还可涉及车载技术领域。

示例性地，本申请涉及的客户端可以是用户终端。可选的，该用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。

本申请提供的方案还可涉及编解码标准或技术。

本申请实施例提供的方案可应用于数字视频编码技术领域，例如，图像编解码领域、视频编解码领域、硬件视频编解码领域、专用电路视频编解码领域、实时视频编解码领域。或者说，本申请实施例提供的方案可结合至音视频编码标准(Audio Video codingStandard，AVS)、第二代AVS标准(AVS2)或第三代AVS标准(AVS3)。具体包括但不限于H.264/音视频编码(Audio Video coding，AVC)标准、H.265/高效视频编码(High EfficiencyVideo Coding，HEVC)标准以及H.266/多功能视频编码(Versatile Video Coding，VVC)标准。或者说，本申请实施例提供的方案可结合至其它专属或行业标准，示例性地，具体可以包含ITU-TH.261、ISO/IECMPEG-1Visual、ITU-TH.262或ISO/IECMPEG-2Visual、ITU-TH.263、ISO/IECMPEG-4Visual，ITU-TH.264(也可称为ISO/IECMPEG-4AVC)，也包含可分级视频编解码(SVC)及多视图视频编解码(MVC)扩展。

此外，本申请实施例提供的方案可以用于对图像进行有损压缩(lossycompression)，也可用于对图像进行无损压缩(lossless compression)。该无损压缩可以是视觉无损压缩(visually lossless compression)，也可以是数学无损压缩(mathematically lossless compression)。

为了便于理解，首先结合图1对本申请实施例涉及的视频编解码系统进行介绍。

图1为本申请实施例涉及的一种视频编解码系统100的示意性框图。需要说明的是，图1只是一种示例，本申请实施例的视频编解码系统包括但不限于图1所示。如图1所示，该视频编解码系统100包含编码设备110和解码设备120。其中编码设备用于对视频数据进行编码(可以理解成压缩)产生码流，并将码流传输给解码设备。解码设备对编码设备编码产生的码流进行解码，得到解码后的视频数据。

编码设备110可以理解为具有视频编码功能的设备，解码设备120可以理解为具有视频解码功能的设备，即本申请实施例对编码设备110和解码设备120包括更广泛的装置，例如包含智能手机、台式计算机、移动计算装置、笔记本(例如，膝上型)计算机、平板计算机、机顶盒、电视、相机、显示装置、数字媒体播放器、视频游戏控制台、车载计算机等。在一些实施例中，编码设备110可以经由信道130将编码后的视频数据(如码流)传输给解码设备120。信道130可以包括能够将编码后的视频数据从编码设备110传输到解码设备120的一个或多个媒体和/或装置。

在一个实例中，信道130包括使编码设备110能够实时地将编码后的视频数据直接发射到解码设备120的一个或多个通信媒体。在此实例中，编码设备110可根据通信标准来调制编码后的视频数据，且将调制后的视频数据发射到解码设备120。其中通信媒体包含无线通信媒体，例如射频频谱，可选的，通信媒体还可以包含有线通信媒体，例如一根或多根物理传输线。在另一实例中，信道130包括存储介质，该存储介质可以存储编码设备110编码后的视频数据。存储介质包含多种本地存取式数据存储介质，例如光盘、DVD、快闪存储器等。在该实例中，解码设备120可从该存储介质中获取编码后的视频数据。在另一实例中，信道130可包含存储服务器，该存储服务器可以存储编码设备110编码后的视频数据。在此实例中，解码设备120可以从该存储服务器中下载存储的编码后的视频数据。可选的，该存储服务器可以存储编码后的视频数据且可以将该编码后的视频数据发射到解码设备120，例如web服务器(例如，用于网站)、文件传送协议(FTP)服务器等。

在一些实施例中，编码设备110包含视频编码器112及输出接口113。其中，输出接口113可以包含调制器/解调器(调制解调器)和/或发射器。

在一些实施例中，编码设备110除了包括视频编码器112和输入接口113外，还可以包括视频源111。视频源111可包含视频采集装置(例如，视频相机)、视频存档、视频输入接口、计算机图形系统中的至少一个，其中，视频输入接口用于从视频内容提供者处接收视频数据，计算机图形系统用于产生视频数据。

视频编码器112对来自视频源111的视频数据进行编码，产生码流。视频数据可包括一个或多个图像(picture)或图像序列(sequence of pictures)。码流以比特流的形式包含了图像或图像序列的编码信息。编码信息可以包含编码图像数据及相关联数据。相关联数据可包含序列参数集(sequence parameter set，简称SPS)、图像参数集(pictureparameter set，简称PPS)及其它语法结构。SPS可含有应用于一个或多个序列的参数。PPS可含有应用于一个或多个图像的参数。语法结构是指码流中以指定次序排列的零个或多个语法元素的集合。

视频编码器112经由输出接口113将编码后的视频数据直接传输到解码设备120。编码后的视频数据还可存储于存储介质或存储服务器上，以供解码设备120后续读取。

在一些实施例中，解码设备120包含输入接口121和视频解码器122。在一些实施例中，解码设备120除包括输入接口121和视频解码器122外，还可以包括显示装置123。其中，输入接口121包含接收器及/或调制解调器。输入接口121可通过信道130接收编码后的视频数据。视频解码器122用于对编码后的视频数据进行解码，得到解码后的视频数据，并将解码后的视频数据传输至显示装置123。

显示装置123显示解码后的视频数据。显示装置123可与解码设备120整合或在解码设备120外部。显示装置123可包括多种显示装置，例如液晶显示器(LCD)、等离子体显示器、有机发光二极管(OLED)显示器或其它类型的显示装置。

需要说明的是，图1仅为本申请的一个实例，本申请实施例的技术方案不限于图1，例如本申请的技术还可以应用于单侧的视频编码或单侧的视频解码。

下面对本申请实施例涉及的视频编码框架进行介绍。

图2是本申请实施例提供的视频编码器200的示意性框图。应理解，该视频编码器200可用于对图像进行有损压缩(lossy compression)，也可用于对图像进行无损压缩(lossless compression)。该无损压缩可以是视觉无损压缩(visually losslesscompression)，也可以是数学无损压缩(mathematically lossless compression)。

该视频编码器200可应用于亮度色度(YCbCr，YUV)格式的图像数据上。

例如，该视频编码器200读取视频数据，针对视频数据中的每帧图像，将一帧图像划分成若干个编码树单元(coding tree unit，CTU)，在一些例子中，CTB可被称作“树型块”、“最大编码单元”(Largest Coding unit，简称LCU)或“编码树型块”(coding treeblock，简称CTB)。每一个CTU可以与图像内的具有相等大小的像素块相关联。每一像素可对应一个亮度(luminance或luma)采样及两个色度(chrominance或chroma)采样。因此，每一个CTU可与一个亮度采样块及两个色度采样块相关联。一个CTU大小例如为128×128、64×64、32×32等。一个CTU又可以继续被划分成若干个编码单元(Coding Unit，CU)进行编码，CU可以为矩形块也可以为方形块。CU可以进一步划分为预测单元(prediction Unit，PU)和变换单元(transform unit，TU)，进而使得编码、预测、变换分离，处理的时候更灵活。在一种示例中，CTU以四叉树方式划分为CU，CU以四叉树方式划分为TU、PU。

该视频编码器200可支持各种PU大小。假定特定CU的大小为2N×2N，视频编码器及视频解码器可支持2N×2N或N×N的PU大小以用于帧内预测，且支持2N×2N、2N×N、N×2N、N×N或类似大小的对称PU以用于帧间预测。视频编码器及视频解码器还可支持2N×nU、2N×nD、nL×2N及nR×2N的不对称PU以用于帧间预测。

如图2所示，该视频编码器200可包括：

预测单元210、残差单元220、变换/量化单元230、反变换/量化单元240、重建单元250、环路滤波单元260、解码图像缓存270和熵编码单元280。需要说明的是，视频编码器200可包含更多、更少或不同的功能组件。

预测单元210包括帧间预测单元211和帧内预测单元212。由于视频的一个帧中的相邻像素之间存在很强的相关性，在视频编解码技术中使用帧内预测的方法消除相邻像素之间的空间冗余。由于视频中的相邻帧之间存在着很强的相似性，在视频编解码技术中使用帧间预测方法消除相邻帧之间的时间冗余，从而提高编码效率。

帧间预测单元211可用于帧间预测，帧间预测可以参考不同帧的图像信息，帧间预测使用运动信息从参考帧中找到参考块，根据参考块生成预测块，用于消除时间冗余；帧间预测所使用的帧可以为P帧和/或B帧，P帧指的是向前预测帧，B帧指的是双向预测帧。运动信息包括参考帧所在的参考帧列表，参考帧索引，以及运动矢量。运动矢量可以是整像素的或者是分像素的，如果运动矢量是分像素的，那么需要再参考帧中使用插值滤波做出所需的分像素的块，这里把根据运动矢量找到的参考帧中的整像素或者分像素的块叫参考块。有的技术会直接把参考块作为预测块，有的技术会在参考块的基础上再处理生成预测块。在参考块的基础上再处理生成预测块也可以理解为把参考块作为预测块然后再在预测块的基础上处理生成新的预测块。最常用的帧间预测方法包括：VVC视频编解码标准中的几何划分模式(geometric partitioning mode，GPM)，以及AVS3视频编解码标准中的角度加权预测(angular weighted prediction，AWP)。这两种帧内预测模式在原理上有共通之处。

帧内预测单元212只参考同一帧图像的信息，预测当前码图像块内的像素信息，用于消除空间冗余。帧内预测所使用的帧可以为I帧。HEVC使用的帧内预测模式有平面模式(Planar)、DC和33种角度模式，共35种预测模式。VVC使用的帧内模式有Planar、DC和65种角度模式，共67种预测模式。AVS3使用的帧内模式有DC、Plane、Bilinear和63种角度模式，共66种预测模式。在一些实施例中，帧内预测单元212可以采用帧内块复制技术和帧内串复制技术实现。

残差单元220可基于CU的像素块及CU的PU的预测块来产生CU的残差块。举例来说，残差单元220可产生CU的残差块，使得残差块中的每一采样具有等于以下两者之间的差的值：CU的像素块中的采样，及CU的PU的预测块中的对应采样。

变换/量化单元230可量化变换系数。变换/量化单元230可基于与CU相关联的量化参数(QP)值来量化与CU的TU相关联的变换系数。视频编码器200可通过调整与CU相关联的QP值来调整应用于与CU相关联的变换系数的量化程度。反变换/量化单元240可分别将逆量化及逆变换应用于量化后的变换系数，以从量化后的变换系数重建残差块。

重建单元250可将重建后的残差块的采样加到预测单元210产生的一个或多个预测块的对应采样，以产生与TU相关联的重建图像块。通过此方式重建CU的每一个TU的采样块，视频编码器200可重建CU的像素块。

环路滤波单元260可执行消块滤波操作以减少与CU相关联的像素块的块效应。在一些实施例中，环路滤波单元260包括去块滤波单元和样点自适应补偿/自适应环路滤波(SAO/ALF)单元，其中去块滤波单元用于去方块效应，SAO/ALF单元用于去除振铃效应。

解码图像缓存270可存储重建后的像素块。帧间预测单元211可使用含有重建后的像素块的参考图像来对其它图像的PU执行帧间预测。另外，帧内预测单元212可使用解码图像缓存270中的重建后的像素块来对在与CU相同的图像中的其它PU执行帧内预测。

熵编码单元280可接收来自变换/量化单元230的量化后的变换系数。熵编码单元280可对量化后的变换系数执行一个或多个熵编码操作以产生熵编码后的数据。

图3是本申请实施例提供的解码框架300的示意性框图。

如图3所示，视频解码器300包含：

熵解码单元310、预测单元320、反量化/变换单元330、重建单元340、环路滤波单元350及解码图像缓存360。需要说明的是，视频解码器300可包含更多、更少或不同的功能组件。

视频解码器300可接收码流。熵解码单元310可解析码流以从码流提取语法元素。作为解析码流的一部分，熵解码单元310可解析码流中的经熵编码后的语法元素。预测单元320、反量化/变换单元330、重建单元340及环路滤波单元350可根据从码流中提取的语法元素来解码视频数据，即产生解码后的视频数据。

预测单元320包括帧内预测单元321和帧间预测单元322。

帧内预测单元321可执行帧内预测以产生PU的预测块。帧内预测单元321可使用帧内预测模式以基于空间相邻PU的像素块来产生PU的预测块。帧内预测单元321还可根据从码流解析的一个或多个语法元素来确定PU的帧内预测模式。

帧间预测单元322可根据从码流解析的语法元素来构造第一参考图像列表(列表0)及第二参考图像列表(列表1)。此外，如果PU使用帧间预测编码，则熵解码单元310可解析PU的运动信息。帧间预测单元322可根据PU的运动信息来确定PU的一个或多个参考块。帧间预测单元322可根据PU的一个或多个参考块来产生PU的预测块。

反量化/变换单元330可逆量化(即，解量化)与TU相关联的变换系数。反量化/变换单元330可使用与TU的CU相关联的QP值来确定量化程度。在逆量化变换系数之后，反量化/变换单元330可将一个或多个逆变换应用于逆量化变换系数，以便产生与TU相关联的残差块。

重建单元340使用与CU的TU相关联的残差块及CU的PU的预测块以重建CU的像素块。例如，重建单元340可将残差块的采样加到预测块的对应采样以重建CU的像素块，得到重建图像块。

环路滤波单元350可执行消块滤波操作以减少与CU相关联的像素块的块效应。

视频解码器300可将CU的重建图像存储于解码图像缓存360中。视频解码器300可将解码图像缓存360中的重建图像作为参考图像用于后续预测，或者，将重建图像传输给显示装置呈现。

视频编解码的基本流程如下：

在编码端，将一帧图像划分成块，针对当前块，预测单元210使用帧内预测或帧间预测产生当前块的预测块。残差单元220可基于预测块与当前块的原始块计算残差块，即预测块和当前块的原始块的差值，该残差块也可称为残差信息。该残差块经由变换/量化单元230变换与量化等过程，可以去除人眼不敏感的信息，以消除视觉冗余。可选的，经过变换/量化单元230变换与量化之前的残差块可称为时域残差块，经过变换/量化单元230变换与量化之后的时域残差块可称为频率残差块或频域残差块。熵编码单元280接收到变化量化单元230输出的量化后的变化系数，可对该量化后的变化系数进行熵编码，输出码流。例如，熵编码单元280可根据目标上下文模型以及二进制码流的概率信息消除字符冗余。可选的，在本申请中，当前块(current block)可以称为当前编码单元(CU)或当前预测单元(PU)等。预测块也可称为预测图像块或图像预测块，重建图像块也可称为重建块或图像重建图像块。

在解码端，熵解码单元310可解析码流得到当前块的预测信息、量化系数矩阵等，预测单元320基于预测信息对当前块使用帧内预测或帧间预测产生当前块的预测块。反量化/变换单元330使用从码流得到的量化系数矩阵，对量化系数矩阵进行反量化、反变换得到残差块。重建单元340将预测块和残差块相加得到重建块。重建块组成重建图像，环路滤波单元350基于图像或基于块对重建图像进行环路滤波，得到解码图像。编码端同样需要和解码端类似的操作获得解码图像。该解码图像也可以称为重建图像，重建图像可以为后续的帧作为帧间预测的参考帧。

需要说明的是，编码端确定的块划分信息，以及预测、变换、量化、熵编码、环路滤波等模式信息或者参数信息等在必要时携带在码流中。解码端通过解析码流及根据已有信息进行分析确定与编码端相同的块划分信息，预测、变换、量化、熵编码、环路滤波等模式信息或者参数信息，从而保证编码端获得的解码图像和解码端获得的解码图像相同。

还应当理解，上述是基于块的混合编码框架下的视频编解码器的基本流程，随着技术的发展，该框架或流程的一些模块或步骤可能会被优化，本申请适用于该基于块的混合编码框架下的视频编解码器的基本流程，但不限于该框架及流程。

上文结合图1至图3对本申请实施例可适用的编解码系统，编码器以及解码器进行了描述，从信号的获取方式看，视频信号可以分为摄像机拍摄到的以及计算机生成的两种方式，由于统计特性的不同，其对应的压缩编码方式也可能有所区别，但都会对输入的原始视频信号，执行如下操作和处理中的一项或多项：

1)、块划分结构(block partition structure)：输入图像根据一个的大小，划分成若干个不重叠的处理单元，每个处理单元将进行类似的压缩操作。这个处理单元被称作CTU，或者LCU。CTU再往下，可以继续进行更加精细的划分，得到一个或多个基本编码的单元，称之为CU。每个CU是一个编码环节中最基本的元素。以下描述的是对每一个CU可能采用的各种编码方式。

2)、预测编码(Predictive Coding)：包括了帧内预测和帧间预测等方式，原始视频信号经过选定的已重建视频信号的预测后，得到残差视频信号。编码端需要为当前CU决定在众多可能的预测编码模式中，选择最适合的一种，并告知解码端。

a、帧内预测：预测的信号来自于同一图像内已经编码重建过的区域

b、帧间预测：预测的信号来自已经编码过的，不同于当前图像的其他图像(称之为参考图像)

3)、变换编码及量化(Transform&Quantization)：残差视频信号经过DFT，DCT等变换操作，将信号转换到变换域中，称之为变换系数。在变换域中的信号，进一步的进行有损的量化操作，丢失掉一定的信息，使得量化后的信号有利于压缩表达。在一些视频编码标准中，可能有多于一种变换方式可以选择，因此，编码端也需要为当前编码CU选择其中的一种变换，并告知解码端。量化的精细程度通常由量化参数(QP)来决定，QP取值较大大，表示更大取值范围的系数将被量化为同一个输出，因此通常会带来更大的失真，及较低的码率；相反，QP取值较小，表示较小取值范围的系数将被量化为同一个输出，因此通常会带来较小的失真，同时对应较高的码率。

4)、熵编码(Entropy Coding)或统计编码：量化后的变换域信号，将根据各个值出现的频率，进行统计压缩编码，最后输出二值化(0或者1)的压缩码流。同时，编码产生其他信息，例如选择的模式，运动矢量等，也需要进行熵编码以降低码率。统计编码是一种无损编码方式，可以有效的降低表达同样的信号所需要的码率。常见的统计编码方式有变长编码(VLC，Variable Length Coding)或者基于上下文的二进制算术编码(Content AdaptiveBinary Arithmetic Coding，CABAC)。

5)、环路滤波(Loop Filtering)：已经编码过的图像，经过反量化，反变换及预测补偿的操作(上述2～4的反向操作)，可获得重建的解码图像。重建图像与原始图像相比，由于存在量化的影响，部分信息与原始图像有所不同，产生失真(Distortion)。对重建图像进行滤波操作，例如去块效应滤波(deblocking)，SAO或者ALF等滤波器，可以有效的降低量化所产生的失真程度。由于这些经过滤波后的重建图像，将做为后续编码图像的参考，用于对将来的信号进行预测，所以上述的滤波操作也被称为环路滤波，及在编码环路内的滤波操作。

在解码过程中，对于每一个CU，解码器获得压缩码流后，先进行熵解码，获得各种模式信息及量化后的变换系数，各个系数经过反量化及反变换，得到残差信号；另一方面，根据已知的编码模式信息，可获得该CU对应的预测信号，两者相加之后，即可得到重建信号。最后，解码图像的重建值，需要经过环路滤波的操作，产生最终的输出信号。

在视频媒体的传输系统中，针对编码后的视频码流，需要对其进行文件封装，使视频码流以一种更容易被解析的结构存储在计算设备中。在视频文件封装环节增添的信息，通常有助于提升视频文件在服务器或中间传输节点的存储、关联、传输效率以及视频文件在终端的解码效率。在用户终端，需要进行解封装、解码等逆操作才能最终呈现视频内容。为了便于理解本申请提供的方案，下面对媒体文件的传输过程进行说明。

内容制作设备对获取到的图像或视频进行编码、封装后形成图像或视频的封装文件，该图像或视频的封装文件可以是一个媒体文件，也可以是多个媒体文件；并且内容制作设备按照媒体文件的文件格式要求采用媒体呈现描述信息记录该图像或视频的封装文件的元数据，例如，采用媒体演示描述(MediaPresentationDescription，MPD)文件记录该图像或视频的封装文件的元数据。此处的元数据是对与图像或视频的呈现有关的信息的总称，该元数据可以包括对媒体内容的描述信息、对视窗的描述信息以及对媒体内容呈现相关的信令信息等等。内容制作设备将MPD文件下发至内容消费设备，以使内容消费设备根据该MDP文件中的相关描述信息请求获取图像或视频的封装文件(即媒体文件)。具体地，图像或视频的封装文件可通过传输机制由内容制作设备下发至内容消费设备。作为示例，传输机制可以是动态自适应流媒体传输(Dynamic Adaptive Streaming over HTTP，DASH)、智能媒体传输(Smart Media Transport，SMT)。

内容制作设备将经过压缩后的图像或视频封装成一系列小型的基于超文本传输协议(Hyper Text Transfer Protocol，HTTP)的媒体文件，每个媒体文件包含的时间可以设置，一般包含时间较短，但是每个媒体文件有多种码率的版本，这样可以更精确地实现网络自适应下载。内容消费设备将根据当前网络条件自适应地选择下载和播放当前网络能够承载的最高比特率版本，由此，既可以保证当前媒体的质量，又能避免由于码率过高导致的播放卡顿或重新缓冲事件。基于此，可以实现动态无缝适应实时的网络条件并提供高质量的播放内容，拥有更少的卡顿，极大地提升了用户体验。换言之，码率切换以媒体文件为单位，当网络带宽较好时，内容消费设备可以请求对应时间较高码率的媒体文件；而当带宽变差时，内容消费设备则下载对应码率较低的媒体文件。由于不同质量的媒体文件在时间上都是相互对齐的，因此不同质量的媒体文件之间切换时，画面是自然流畅的。可选的，媒体文件也可称为媒体片段。

通过媒体演示描述(media presentation description，MPD)文件可精确描述媒体文件，MPD文件可以是一个可扩展标示语言(Extensive Markup Language，XML)文件，并完整描述了媒体文件的所有信息，包括各类音视频参数、媒体文件的时长、不同媒体文件的码率、分辨率以及对应的统一资源定位符(Uniform Resource Locator，URL)等等，内容消费设备通过首先下载并解析MPD文件，可获取到与自身性能和带宽最匹配的媒体文件。MPD文件可以包含一个或多个自适应集(AdaptationSets)。例如，一个自适应集包含同一视频内容的多个不同比特率的视频媒体，另一个自适应集包含同一音频内容的多个不同比特率的视频媒体。一个自适应集可以包含多个表示(Representation)。一个表示可包括一个或多个媒体内容的组合，比如某种分辨率的视频文件可以看做一个表示。

内容消费设备根据MPD文件的URL向服务器发送请求获取MPD文件，内容消费设备首先解析MPD文件，得到媒体文件的内容信息，包括视频分辨率、视频内容种类、分段情况、帧率、码率以及各个媒体文件的URL地址等媒体配置信息。内容消费设备通过分析上述媒体文件的内容信息，根据当前网络状态以及客户端缓冲区的大小等选择合适的媒体文件。然后通过向内容制作设备发送请求，根据媒体URL下载对应的媒体文件并进行流式传输。内容消费设备收到对应的媒体文件之后，进行解封装得到裸码流，最后送入解码器进行解码播放。

图4是本申请实施例提供的媒体文件传输方法400的示意性流程图。该方法400的执行主体可以是客户端。例如该客户端可以是台式计算机、移动计算装置、笔记本(例如，膝上型)计算机、平板计算机、机顶盒、智能电话等手持机、电视、相机、显示装置、数字媒体播放器、视频游戏控制台、车载计算机，或其类似者等。再如该客户端可以是图1所示的编码设备110或图2所示的视频编码器200。

如图4所示，该媒体文件传输方法400可包括：

S410，获取媒体资源描述文件，该媒体资源描述文件包括多个媒体文件的描述文件；

S420，在该多个媒体文件的描述文件中选择目标媒体文件的描述文件；该目标媒体文件包括该目标媒体文件中的目标图像的扩展信息，该扩展信息用于描述该目标图像的文本属性或资源属性，或该扩展信息用于当该目标媒体文件为视频文件时，描述该目标媒体文件的资源元数据轨道或资源实体组；

S430，基于该目标媒体文件的描述文件发送资源请求，该资源请求用于请求该目标媒体文件；

S440，接收该目标媒体文件；

S450，响应于在该目标图像的目标区域上执行的选择操作，呈现该扩展信息或呈现用于用户对该扩展信息执行操作的控件。

示例性地，客户端获取服务器发送的媒体资源描述文件后，在媒体资源描述文件包括的多个媒体文件的描述文件中选择包括扩展信息的目标媒体文件；进而向服务器请求该目标媒体文件，并在收到服务器发送的目标媒体文件后，响应于用户在该目标媒体文件中的目标图像中的目标区域上执行的选择操作，呈现该扩展信息或呈现用于用于对该扩展信息执行操作的控件。可选的，该扩展信息可以是服务器针对编码之后的图像或视频码流，根据应用需求在文件封装过程中为图像或者视频的某些图像帧添加扩展信息相关的元数据。

换言之，一方面，服务器可以根据本地的图像或视频生成多个媒体文件，另一方面，服务器可以根据本地的图像或视频生成包括额外的扩展信息的媒体资源描述文件。例如，该媒体资源描述文件为MPD文件，例如，该媒体资源描述文件包括该扩展信息和媒体配置信息，该媒体配置信息为用于获取媒体文件的配置信息，例如，该媒体配置信息可以包括视频分辨率、视频内容种类、分段情况、帧率、码率以及各个媒体文件的URL地址等信息。服务器向将媒体资源描述文件发送给客户端，客户端收到媒体资源描述文件后，基于该媒体资源描述文件包括的多个媒体文件的描述信息在该多个媒体文件中选择目标媒体文件，并向服务器发送用于请求目标媒体文件的资源请求；服务器收到客户端发送的资源请求后，向客户端发送该媒体文件，由于本申请中的目标媒体文件包括扩展信息，因此在客户端侧，可以响应于在用户在该目标图像的目标区域上执行的选择操作，呈现该扩展信息或呈现用于用户对该扩展信息执行操作的控件。

需要说明的是，本申请涉及的扩展信息包括目标图像上的信息和/或对该目标图像上的信息进行扩展得到的信息，也即是说，该扩展信息包括显示在该目标图像上的信息以及对显示在该目标图像上的信息进行扩展得到的信息。例如，对该目标图像上的信息进行扩展得到的信息包括但不限于：该目标图像上的信息的位置、类型、数量以及标识等信息。本申请对该扩展信息的具体类型不作限定。

示例性地，该目标图像上的信息包括所述目标图像中内含的文本信息和/或该目标图像中内含的可进一步用于获取的商品、海报、演出等资源信息或资源链接。当然，该目标图像上的信息也可以为其他类型的信息，本申请对此不作具体限定。

示例性地，若该扩展信息包括该目标图像上显示的文本信息，则客户端响应于在该目标图像的目标区域上执行的选择操作，呈现该文本信息；若该扩展信息包括该目标图像上显示的资源链接，则客户端响应于在该目标图像的目标区域上执行的选择操作，呈现该资源链接或该资源链接指示的页面或信息。

示例性地，若该扩展信息包括该目标图像上显示的文本信息，则客户端响应于在该目标图像的目标区域上执行的选择操作，呈现用于用户对该文本信息执行复制操作的控件；若该扩展信息包括该目标图像上显示的资源链接，则客户端响应于在该目标图像的目标区域上执行的选择操作，呈现用于用户对该资源链接执行跳转操作的控件，或者呈现用于用户对该资源链接执行复制操作的控件。

此外，应当理解，本申请中涉及的媒体文件可应用于图像或视频的存储、封装、解封装过程。

在一些实施例中，该目标媒体文件为图像文件，该扩展信息为用于描述该目标图像包含的文本信息以及文本信息的位置的图像项目文本属性；其中，该图像项目文本属性包括以下信息中的至少一项：

文本字符串数量，用于指示该目标图像包含的文本字符串的数量；

文本字符串位置信息，用于指示该目标图像包含的文本字符串所在的区域的位置信息；

文本信息，用于指示该目标图像包含的文本。

示例性地，该图像项目文本属性可以携带在ISOBMFF数据盒中，也即是说，可以利用该图像项目文本属性对ISOBMFF数据盒进行扩展，以得到扩展的ISOBMFF数据盒。可选的，该扩展的ISOBMFF数据盒可定义如下格式：

数据盒类型：'itip'；

属性类型：项目描述属性；

包含于：项目属性内容盒(ItemPropertyContainerBox)；

强制性(每项目)：否；

数量(每项目)：0个或1个。

示例性地，该图像项目文本属性可实现为以下语法元素：

其中，num_text_strings用于指示该目标图像包含的文本字符串的数量。region_vertex_x和region_vertex_y用于指示该目标图像包含的文本字符串所在的区域左下顶点坐标，例如以像素为单位。region_width和region_height分别用于指示该目标图像包含的文本字符串所在的区域的宽和高，例如以像素为单位。text_info可以是以空字符结尾的字符串，text_info用于指示该目标图像包含的文本。

在一些实施例中，该目标媒体文件为图像文件，该扩展信息为用于描述该目标图像关联的资源的信息的图像项目关联资源属性；其中，该图像项目关联资源属性包括以下信息中的至少一项：

关联资源数，用于指示该目标图像关联的资源的数量；

关联区域标识，用于指示该目标图像中的特定区域关联有相应的资源或该目标图像的整个区域关联有相应的资源；

关联区域信息，用于指示该特定区域的位置信息；

关联资源定位符，用于指示该目标图像关联的资源的统一资源定位符(UniformResource Locators，URL)。

示例性地，该图像项目关联资源属性可以携带在ISOBMFF数据盒中，也即是说，可以利用该图像项目关联资源属性对ISOBMFF数据盒进行扩展，以得到扩展的ISOBMFF数据盒。可选的，该扩展的ISOBMFF数据盒可定义如下格式：

数据盒类型：'iarp'；

属性类型：项目描述属性；

包含于：项目属性内容盒(ItemPropertyContainerBox)；

强制性(每项目)：否；

数量(每项目)：0个或1个。

示例性地，该图像项目文本属性可实现为以下语法元素：

其中，num_associated_resources用于指示该目标图像关联的资源的数量。associated_region_flag的取值为1时表示该目标图像中的特定区域关联了相应资源。associated_region_flag的取值为0时表示该目标图像中的整个区域关联了相应资源。region_vertex_x和region_vertex_y用于指示该特定区域的左下顶点坐标，例如以像素为单位。region_width和region_height分别用于指示该特定区域的宽高，例如以像素为单位。associated_resource_url可以为空字符结尾的字符串，associated_resource_url用于指示该目标图像关联的资源的URL。

在一些实施例中，该目标媒体文件为视频文件，该扩展信息为用于描述该目标媒体文件的视频轨道关联的资源的信息的图像关联资源元数据轨道；其中，该图像关联资源元数据轨道包括以下信息中的至少一项：

关联资源数量，用于指示该视频轨道或该视频轨道中的图像关联的资源的数量；

关联资源标识，用于指示该视频轨道或该视频轨道中的图像关联的资源的标识；

关联区域标识，用于指示该视频轨道中的图像中的特定区域关联有相应的资源，或用于指示该视频轨道中的图像视频帧的整个区域关联有相应的资源；

关联区域信息，用于指示该特定区域的位置信息；

关联资源定位符，用于指示该视频轨道或该视频轨道中的图像关联的资源的统一资源定位符URL。

示例性地，该图像关联资源元数据轨道可以携带在视频轨道的描述信息中，也即是说，可以利用该图像关联资源元数据轨道对视频轨道的描述信息进行扩展，以得到扩展的视频轨道。

示例性地，该图像关联资源元数据轨道可实现为以下语法元素：

/>

其中，num_associated_resources用于指示该视频轨道或该视频轨道中的图像中关联的资源的数量。resource_id用于指示该视频轨道或该视频轨道中的图像关联的资源的标识。associated_resource_url可以是空字符结尾的字符串，associated_resource_url用于指示该视频轨道或该视频轨道中的图像关联的资源的URL。associated_region_flag的取值为1时表示该视频轨道中的图像中的特定区域关联了相应的资源。associated_region_flag的取值为0时表示该视频轨道中的图像中的整个区域关联了相应的资源。region_vertex_x和region_vertex_y用于指示特定区域左下顶点的坐标，例如以像素为单位。region_width和region_height分别用于指示该特定区域的宽高，例如以像素为单位。

在一些实施例中，该关联资源元数据轨道的样本入口包括该关联资源数量和该关联资源定位符；该关联资源元数据轨道的当前视频样本包括与该当前视频样本关联的资源的数目、与该当前视频样本关联的资源的标识以及与该当前视频样本关联的资源所对应的区域。

本实施例中，图像关联资源元数据轨道用于描述视频轨道关联的资源的信息。该关联资源元数据轨道的样本入口可用于指示视频轨道关联的所有资源的数目和URL。关联资源元数据轨道的当前视频样本可包括用于当前视频样本关联的资源的数目、当前视频样本关联的资源的标识。进一步的，该关联资源元数据轨道的当前视频样本还可包括以及当前视频样本关联的资源所在的区域。基于此，可以针对目标视频文件中的不同视频样本关联不同数量的资源或不同的资源，进一步提升用户体验。

在一些实施例中，该目标媒体文件为视频文件，该扩展信息为用于描述该目标媒体文件的实体组关联的资源的信息的图像关联资源实体组；其中，该图像关联资源实体组包括以下中的至少一项：

图像关联资源盒，用于指示该实体组关联的资源；

关联资源数，用于指示该实体组关联的资源的数量；

关联资源定位符，用于指示该实体组关联的资源的统一资源定位符URL；

实体组中实体数量，用于指示映射到该实体组中的实体的数量；

实体标识，用于指示映射到该实体组的实体的标识，该实体标识的取值为项目的标识的取值或轨道的标识的取值。

示例性地，该图像关联资源实体组可以携带在实体组的描述信息中，也即是说，可以利用该图像关联资源实体组对实体组的描述信息进行扩展，以得到扩展的实体组。

示例性地，该图像关联资源实体组可实现为以下语法元素：

其中，ImageAssociatedResourceBox用于将包括该实体组(例如目标图像的多个图像)关联的资源。num_associated_resources用于指示实体组关联的资源的数量。associated_resource_url可以是空字符结尾的字符串，associated_resource_url用于指示关联资源的URL信息。num_entities_in_group用于指示映射到该实体组的实体的数量。entity_id用于指示映射到该实体组的实体的标识，例如entity_id为某个项目的item_ID的取值或某个轨道的track_ID的取值。

在一些实施例中，该目标媒体文件还包括扩展信息应用数据盒；其中，该扩展信息应用数据盒包括以下信息中的至少一项：

扩展类型，用于指示该扩展信息的类型为文本信息或资源信息；

图像信息标识，用于指示该目标媒体文件的图像项目是否包括该扩展信息；

视频信息标识，用于指示该目标媒体文件的视频轨道是否包括该扩展信息。

本实施例中，通过引入扩展信息应用数据盒，能够使得客户端在选择该目标媒体文件之前，基于该扩展信息应用数据盒确定该目标媒体文件是否支持该扩展信息的应用或确定该目标媒体文件是否包括该扩展信息，有利于客户端选择合适的媒体文件，进而提升用户体验。

示例性地，该扩展信息应用数据盒可以是ISOBMFF数据盒。可选的，该扩展的ISOBMFF数据盒可定义如下格式：

数据盒类型：'ieap'；

包含于：媒体盒(MetaBox)；

强制性(每项目)：否；

数量(每项目)：0个或1个。

示例性地，该扩展信息应用数据盒可实现为以下语法元素：

其中，extension_type用于指示扩展信息的类型，extension_type的取值为0时表示扩展信息为文本信息；extension_type的取值为1时表示扩展信息为关联的资源，其余取值保留。image_info_flag的取值为1表示该目标媒体文件的图像项目包含扩展信息。image_info_flag的取值为0表示该目标媒体文件的图像项目不包含扩展信息。video_frame_info_flag的取值为1表示该目标媒体文件的视频轨道包含扩展信息。video_frame_info_flag的取值为0时表示文件中的视频轨道不包含扩展信息。可选的，当extension_type的取值为0时，video_frame_info_flag的取值也为0。

在一些实施例中，该目标媒体文件的描述文件包括该目标媒体文件的应用描述子；其中，该目标媒体文件的应用描述子包括以下信息中的至少一项：

示例性地，该目标媒体文件的描述文件包括该目标媒体文件的应用描述子，相当于，该目标媒体文件的描述文件支持在该目标媒体文件中的图像上呈现该扩展信息或呈现用于用户对该扩展信息执行操作的控件。或者说，该目标媒体文件的描述文件包括该目标媒体文件的应用描述子，相当于，该目标媒体文件包括该扩展信息。

示例性地，该目标媒体文件的应用描述子可存在于表示(representation)层级或适应集(adaptation set)层级，用于指示该目标媒体文件是否支持在该目标图像中呈现该扩展信息或呈现用于用户对该扩展信息执行操作的控件。

示例性地，该目标媒体文件的应用描述子的属性及语义可实现为表1所示的内容：

表1

如表1所示，针对该目标媒体文件，可通过定义描述子确定该媒体文件是否包括扩展信息，并在包括该应用描述子时通过定义该应用描述子的属性，可确定该媒体文件包括的扩展信息的类型以及在图像项目中包括该扩展信息还是在视频轨道中包括该扩展信息。

当然，本申请仅以目标媒体文件的应用描述子为例，在其他可替代实施例中，该媒体资源描述文件还可包括该媒体资源描述文件用于描述的多个媒体文件中的部分或全部媒体文件中的每一个媒体文件的应用描述子，本申请对此不作具体限定。此外，应用描述子也可称为应用描述子元素。

在一些实施例中，该S420可包括：

确定该客户端是否支持在图像中呈现信息或呈现用于用户对信息执行操作的控件；

若该客户端支持在图像中呈现信息或呈现用于用户对信息执行操作的控件，则将该多个媒体文件选择包括应用描述子的描述文件，确定为该目标媒体文件的描述文件。

示例性地，客户端确定该客户端支持在图像中呈现信息或呈现用于用户对信息执行操作的控件时，将该多个媒体文件选择包括应用描述子的描述文件，确定为该目标媒体文件的描述文件。进一步的，客户端确定该客户端不支持在图像中呈现信息或呈现用于用户对信息执行操作的控件时，还可以将该多个媒体文件选择不包括应用描述子的描述文件，确定为该目标媒体文件的描述文件。

本实施例中，通过引入描述子可以简化客户端选择目标媒体文件的流程，有利于提升用户体验。

下面结合具体实施例对本申请的方案进行说明。

实施例1：

服务器针对编码之后的图片，将图片中包含的文本信息添加至图片文件中。此外，服务器根据本地的图片文件，生成包括额外的扩展信息的媒体资源描述文件，并将媒体资源描述文件发送给客户端。该媒体资源描述信息包括多个媒体文件的描述文件。

客户端根据收到的媒体资源描述文件后，基于该媒体资源描述信息包括的多个媒体文件的描述文件请求所需的媒体文件。

例如，客户端A不支持扩展信息的应用，因此，可以从该多个媒体文件的描述文件中选择了不包含应用描述子的描述文件，进而向服务器请求并消费相应的媒体文件。

再如，客户端B支持扩展信息的应用，因此，可以从该多个媒体文件的描述文件选择包含应用描述子的描述文件，进而向服务器请求并消费相应的媒体文件；例如，选择的描述文件包括的应用描述子的属性如下所示：

{ImageExtensionApplication@extension_type＝0；ImageExtensionApplication@image_info_flag＝1；ImageExtensionApplication@video_frame_info_flag＝0}。

相应的，客户端收到图片文件F1后，在解封装的过程中，客户端可以通过ImageTextInfoProperty获取图片文件F1中的文本信息及文本信息所在的区域的位置信息，即{num_text_strings＝1；region:(10,10)width＝20；height＝5；string＝“hello”}；进一步的，当用户在观看图片文件F1的过程中选中相应区域时，客户端结合扩展信息为用户提供进一步的信息反馈与呈现，如提供字符串”hello”的复制操作等。

实施例2：

{ImageExtensionApplication@extension_type＝1；ImageExtensionApplication@image_info_flag＝1；ImageExtensionApplication@video_frame_info_flag＝0}。

相应的，客户端收到图片文件F2后，在解封装的过程中，客户端可以通过ImageAssociatedResourceProperty获取图片文件F2中关联的资源。即获取关联的资源的数量和关联的资源的链接，例如{num_associated_resources＝2；associated_region_flag＝0；string1＝“xx.xxx.com”；string2＝“xx.xxx.com”}；进一步的，当用户在观看图片的过程中点击图片时，客户端结合扩展信息为用户提供进一步的信息反馈与呈现，如跳转到浏览页面或商品页面等。

以上结合附图详细描述了本申请的优选实施方式，但是，本申请并不限于上述实施方式中的具体细节，在本申请的技术构思范围内，可以对本申请的技术方案进行多种简单变型，这些简单变型均属于本申请的保护范围。例如，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本申请对各种可能的组合方式不再另行说明。又例如，本申请的各种不同的实施方式之间也可以进行任意组合，只要其不违背本申请的思想，其同样应当视为本申请所公开的内容。

还应理解，在本申请的各种方法实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。另外，本申请实施例中，术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系。具体地，A和/或B可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

上文结合图4从客户端的角度详细说明了本申请实施例提供的媒体文件传输方法，下面结合图5从服务器的角度对本申请实施例提供的媒体文件传输方法进行说明。

图5是本申请实施例提供的媒体文件传输方法500的示意性流程图。该方法500的执行主体可以服务器。例如该服务器是可以是台式计算机、移动计算装置、笔记本(例如，膝上型)计算机、平板计算机、机顶盒、智能电话等手持机、电视、相机、显示装置、数字媒体播放器、视频游戏控制台、车载计算机，或其类似者等。再如该服务器可以是图1所示的解码设备120或图3所示的视频解码器300。

S510，向客户端发送媒体资源描述文件，该媒体资源描述文件包括多个媒体文件的描述文件；

S520，接收该客户端发送的资源请求，该资源请求用于请求该多个媒体文件中的目标媒体文件；该目标媒体文件包括该目标媒体文件中的目标图像的扩展信息，该扩展信息用于描述该目标图像的文本属性或资源属性，或该扩展信息用于当该目标媒体文件为视频文件时，描述该目标媒体文件的资源元数据轨道或资源实体组；

S530，向该客户端发送该目标媒体文件。

文本信息，用于指示该目标图像包含的文本。

关联资源数，用于指示该目标图像关联的资源的数量；

关联区域信息，用于指示该特定区域的位置信息；

关联资源定位符，用于指示该目标图像关联的资源的统一资源定位符URL。

关联区域信息，用于指示该特定区域的位置信息；

图像关联资源盒，用于指示该实体组关联的资源；

关联资源数，用于指示该实体组关联的资源的数量；

需要说明的是，本申请提供的方法500中的步骤和术语可参考方法400中的相关步骤或相关术语，为避免重复，此处不再赘述。

下面结合图6和图7对本申请提供的媒体文件封装方法和媒体文件解封装方法进行说明。

图6是本申请实施例提供的媒体文件封装方法540的示意性流程图。

如图6所示，该方法540包括：

S541，获取对目标图像或包括该目标图像的视频进行编码得到的码流；

S542，对该码流进行封装，得到包括该目标图像的扩展信息的目标媒体文件，该扩展信息用于描述该目标图像的文本属性或资源属性，或该扩展信息用于当该目标媒体文件为视频文件时，描述该目标媒体文件的资源元数据轨道或资源实体组。

在一些实施例中，该目标媒体文件为图像文件，该扩展信息为用于描述该目标图像包含的文本信息以及文本信息的位置的图像项目文本属性或该扩展信息为用于描述该目标图像关联的资源的信息的图像项目关联资源属性；

其中，该图像项目文本属性包括以下信息中的至少一项：

文本信息，用于指示该目标图像包含的文本；

其中，该图像项目关联资源属性包括以下信息中的至少一项：

关联资源数，用于指示该目标图像关联的资源的数量；

关联区域信息，用于指示该特定区域的位置信息；

在一些实施例中，该目标媒体文件为视频文件，该扩展信息为用于描述该目标媒体文件的视频轨道关联的资源的信息的图像关联资源元数据轨道或该扩展信息为用于描述该目标媒体文件的实体组关联的资源的信息的图像关联资源实体组；

其中，该图像关联资源元数据轨道包括以下信息中的至少一项：

关联区域信息，用于指示该特定区域的位置信息；

关联资源定位符，用于指示该视频轨道或该视频轨道中的图像关联的资源的统一资源定位符URL；

其中，该图像关联资源实体组包括以下中的至少一项：

图像关联资源盒，用于指示该实体组关联的资源；

关联资源数，用于指示该实体组关联的资源的数量；

在一些实施例中，该目标媒体文件还包括扩展信息应用数据盒；

其中，该扩展信息应用数据盒包括以下信息中的至少一项：

图7是本申请实施例提供的媒体文件解封装方法550的示意性流程图。

如图7所示，该方法550可包括：

S551，获取目标媒体文件；

S551，基于对该目标媒体文件进行解封装得到目标图像的扩展信息或得到该目标图像的码流和该目标图像的扩展信息，该扩展信息用于描述该目标图像的文本属性或资源属性，或该扩展信息用于当该目标媒体文件为视频文件时，描述该目标媒体文件的资源元数据轨道或资源实体组。

其中，该图像项目文本属性包括以下信息中的至少一项：

文本信息，用于指示该目标图像包含的文本；

关联资源数，用于指示该目标图像关联的资源的数量；

关联区域信息，用于指示该特定区域的位置信息；

其中，该图像关联资源实体组包括以下中的至少一项：

图像关联资源盒，用于指示该实体组关联的资源；

关联资源数，用于指示该实体组关联的资源的数量；

其中，该扩展信息应用数据盒包括以下信息中的至少一项：

应当理解，本申请中提供的媒体文件封装方法540以及媒体文件解封装方法550中的术语可参考方法400或方法500中的相关术语，为避免重复，此处不再赘述。

上文结合图4至图7详细描述了本申请的方法实施例，下文结合图8至图12，详细描述本申请的装置实施例。

图8是本申请实施例提供的客户端600的示意性流程图。

如图8所示，该客户端600可包括：

获取单元610，用于获取媒体资源描述文件，该媒体资源描述文件包括多个媒体文件的描述文件；

选择单元620，用于在该多个媒体文件的描述文件中选择目标媒体文件的描述文件；该目标媒体文件包括该目标媒体文件中的目标图像的扩展信息，该扩展信息用于描述该目标图像的文本属性或资源属性，或该扩展信息用于当该目标媒体文件为视频文件时，描述该目标媒体文件的资源元数据轨道或资源实体组；

发送单元630，用于基于该目标媒体文件的描述文件发送资源请求，该资源请求用于请求该目标媒体文件；

接收单元640，用于接收该目标媒体文件；

响应单元650，用于响应于在该目标图像的目标区域上执行的选择操作，呈现该扩展信息或呈现用于用户对该扩展信息执行操作的控件。

其中，该图像项目文本属性包括以下信息中的至少一项：

文本信息，用于指示该目标图像包含的文本；

关联资源数，用于指示该目标图像关联的资源的数量；

关联区域信息，用于指示该特定区域的位置信息；

其中，该图像关联资源实体组包括以下中的至少一项：

图像关联资源盒，用于指示该实体组关联的资源；

关联资源数，用于指示该实体组关联的资源的数量；

其中，该扩展信息应用数据盒包括以下信息中的至少一项：

在一些实施例中，该选择单元620具体用于：

图9是本申请实施例提供的服务器700的示意性流程图。

如图9所示，该服务器700可包括：

发送单元710，用于向客户端发送媒体资源描述文件，该媒体资源描述文件包括多个媒体文件的描述文件；

接收单元720，用于接收该客户端发送的资源请求，该资源请求用于请求该多个媒体文件中的目标媒体文件；该目标媒体文件包括该目标媒体文件中的目标图像的扩展信息，该扩展信息用于描述该目标图像的文本属性或资源属性，或该扩展信息用于当该目标媒体文件为视频文件时，描述该目标媒体文件的资源元数据轨道或资源实体组；

该发送单元710还用于向该客户端发送该目标媒体文件。

其中，该图像项目文本属性包括以下信息中的至少一项：

文本信息，用于指示该目标图像包含的文本；

关联资源数，用于指示该目标图像关联的资源的数量；

关联区域信息，用于指示该特定区域的位置信息；

其中，该图像关联资源实体组包括以下中的至少一项：

图像关联资源盒，用于指示该实体组关联的资源；

关联资源数，用于指示该实体组关联的资源的数量；

其中，该扩展信息应用数据盒包括以下信息中的至少一项：

图10是本申请实施例提供的服务器730的示意性框图。

如图10所示，该服务器730可包括：

获取单元731，用于获取单元，获取对目标图像或包括该目标图像的视频进行编码得到的码流；

封装单元732，用于对该码流进行封装，得到包括该目标图像的扩展信息的目标媒体文件，该扩展信息用于描述该目标图像的文本属性或资源属性，或该扩展信息用于当该目标媒体文件为视频文件时，描述该目标媒体文件的资源元数据轨道或资源实体组。

其中，该图像项目文本属性包括以下信息中的至少一项：

文本信息，用于指示该目标图像包含的文本；

关联资源数，用于指示该目标图像关联的资源的数量；

关联区域信息，用于指示该特定区域的位置信息；

其中，该图像关联资源实体组包括以下中的至少一项：

图像关联资源盒，用于指示该实体组关联的资源；

关联资源数，用于指示该实体组关联的资源的数量；

其中，该扩展信息应用数据盒包括以下信息中的至少一项：

图11是本申请实施例提供的客户端740的示意性框图。

如图11所示，该客户端740可包括：

获取单元741，获取目标媒体文件；

解封装单元742，用于基于对该目标媒体文件进行解封装得到目标图像的扩展信息或得到该目标图像的码流和该目标图像的扩展信息，该扩展信息用于描述该目标图像的文本属性或资源属性，或该扩展信息用于当该目标媒体文件为视频文件时，描述该目标媒体文件的资源元数据轨道或资源实体组。

其中，该图像项目文本属性包括以下信息中的至少一项：

文本信息，用于指示该目标图像包含的文本；

关联资源数，用于指示该目标图像关联的资源的数量；

关联区域信息，用于指示该特定区域的位置信息；

其中，该图像关联资源实体组包括以下中的至少一项：

图像关联资源盒，用于指示该实体组关联的资源；

关联资源数，用于指示该实体组关联的资源的数量；

其中，该扩展信息应用数据盒包括以下信息中的至少一项：

应理解，装置实施例与方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。具体地，图8所示的客户端600可以对应于执行本申请实施例的方法400中的相应主体，即客户端600中的各个单元的前述和其它操作和/或功能分别为了实现方法400中的相应流程。图9所示的服务器700可以对应于执行本申请实施例的方法500中的相应主体，并且服务器700中的各个单元的前述和其它操作和/或功能分别为了实现方法500中的相应流程。类似的，图10所示的服务器730可以对应于执行本申请实施例的方法540中的相应主体，并且服务器730中的各个单元的前述和其它操作和/或功能分别为了实现方法540中的相应流程。图11所示的客户端740可以对应于执行本申请实施例的方法550中的相应主体，即客户端740中的各个单元的前述和其它操作和/或功能分别为了实现方法550中的相应流程。示例性地，客户端600和客户端740可以是同一客户端，也可以是不同的客户端，服务器700和服务器730也可以是同一服务器，也可以是不同的客户端，本申请对此不作具体限定。

还应当理解，本申请实施例涉及的客户端600(或客户端740)或服务器700(或服务器730)中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，该客户端600(或客户端740)或服务器700(或服务器730)也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。根据本申请的另一个实施例，可以通过在包括例如中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的通用计算机的通用计算设备上运行能够执行相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造本申请实施例涉及的客户端600(或客户端740)或服务器700(或服务器730)，以及来实现本申请实施例提供的媒体文件传输方法、媒体文件封装方法或媒体文件解封装方法。计算机程序可以记载于例如计算机可读存储介质上，并通过计算机可读存储介质装载于电子设备中，并在其中运行，来实现本申请实施例的相应方法。

换言之，上文涉及的单元可以通过硬件形式实现，也可以通过软件形式的指令实现，还可以通过软硬件结合的形式实现。具体地，本申请实施例中的方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成，结合本申请实施例公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件组合执行完成。可选地，软件可以位于随机存储器，闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法实施例中的步骤。

图12是本申请实施例提供的电子设备800的示意结构图。

如图12所示，该电子设备800至少包括处理器810以及计算机可读存储介质820。其中，处理器810以及计算机可读存储介质820可通过总线或者其它方式连接。计算机可读存储介质820用于存储计算机程序821，计算机程序821包括计算机指令，处理器810用于执行计算机可读存储介质820存储的计算机指令。处理器810是电子设备800的计算核心以及控制核心，其适于实现一条或多条计算机指令，具体适于加载并执行一条或多条计算机指令从而实现相应方法流程或相应功能。

作为示例，处理器810也可称为中央处理器(CentralProcessingUnit，CPU)。处理器810可以包括但不限于：通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。

作为示例，计算机可读存储介质820可以是高速RAM存储器，也可以是非不稳定的存储器(Non-VolatileMemory)，例如至少一个磁盘存储器；可选的，还可以是至少一个位于远离前述处理器810的计算机可读存储介质。具体而言，计算机可读存储介质820包括但不限于：易失性存储器和/或非易失性存储器。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DR RAM)。

如图12所示，该电子设备800还可以包括收发器830。

其中，处理器810可以控制该收发器830与其他设备进行通信，具体地，可以向其他设备发送信息或数据，或接收其他设备发送的信息或数据。收发器830可以包括发射机和接收机。收发器830还可以进一步包括天线，天线的数量可以为一个或多个。

应当理解，该通信设备800中的各个组件通过总线系统相连，其中，总线系统除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。

在一种实现方式中，该电子设备800可以是本申请实施例涉及的客户端、编码端、编码器或编码框架；该计算机可读存储介质820中存储有第一计算机指令；由处理器810加载并执行计算机可读存储介质820中存放的第一计算机指令，以实现本申请实施例提供的媒体文件传输方法400或媒体文件解封装方法550中的相应步骤；换言之，计算机可读存储介质820中的第一计算机指令由处理器810加载并执行相应步骤，为避免重复，此处不再赘述。

在一种实现方式中，该电子设备800可以是本申请实施例涉及的服务器、解码端、解码器或解码框架；该计算机可读存储介质820中存储有第二计算机指令；由处理器810加载并执行计算机可读存储介质820中存放的第二计算机指令，以实现本申请实施例提供的媒体文件传输方法500或媒体文件封装方法540中的相应步骤；换言之，计算机可读存储介质820中的第二计算机指令由处理器810加载并执行相应步骤，为避免重复，此处不再赘述。

根据本申请的另一方面，本申请实施例还提供了一种计算机可读存储介质(Memory)，计算机可读存储介质是电子设备800中的记忆设备，用于存放程序和数据。例如，计算机可读存储介质820。可以理解的是，此处的计算机可读存储介质820既可以包括电子设备800中的内置存储介质，当然也可以包括电子设备800所支持的扩展存储介质。计算机可读存储介质提供存储空间，该存储空间存储了电子设备800的操作系统。并且，在该存储空间中还存放了适于被处理器810加载并执行的一条或多条的计算机指令，这些计算机指令可以是一个或多个的计算机程序821(包括程序代码)。

根据本申请的另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。例如，计算机程序821。此时，电子设备800可以是计算机，处理器810从计算机可读存储介质820读取该计算机指令，处理器810执行该计算机指令，使得该计算机执行上述各种可选方式中提供的媒体文件传输方法、媒体文件封装方法或媒体文件解封装方法。

换言之，当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地运行本申请实施例的流程或实现本申请实施例的功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质进行传输，例如，该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元以及流程步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

最后需要说明的是，以上内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种媒体文件传输方法，其特征在于，所述方法应用于客户端，所述方法包括：

获取媒体资源描述文件，所述媒体资源描述文件包括多个媒体文件的描述文件；

在所述多个媒体文件的描述文件中选择目标媒体文件的描述文件；所述目标媒体文件包括所述目标媒体文件中的目标图像的扩展信息；所述扩展信息用于描述所述目标图像的文本属性或资源属性，或所述扩展信息用于当所述目标媒体文件为视频文件时，描述所述目标媒体文件的资源元数据轨道或资源实体组；

基于所述目标媒体文件的描述文件发送资源请求，所述资源请求用于请求所述目标媒体文件；

接收所述目标媒体文件；

响应于在所述目标图像的目标区域上执行的选择操作，呈现所述扩展信息或呈现用于用户对所述扩展信息执行操作的控件。

2.根据权利要求1所述的方法，其特征在于，所述目标媒体文件为图像文件，所述扩展信息为用于描述所述目标图像包含的文本信息以及文本信息的位置的图像项目文本属性或所述扩展信息为用于描述所述目标图像关联的资源的信息的图像项目关联资源属性；

其中，所述图像项目文本属性包括以下信息中的至少一项：

文本字符串数量，用于指示所述目标图像包含的文本字符串的数量；

文本字符串位置信息，用于指示所述目标图像包含的文本字符串所在的区域的位置信息；

文本信息，用于指示所述目标图像包含的文本；

其中，所述图像项目关联资源属性包括以下信息中的至少一项：

关联资源数，用于指示所述目标图像关联的资源的数量；

关联区域标识，用于指示所述目标图像中的特定区域关联有相应的资源或所述目标图像的整个区域关联有相应的资源；

关联区域信息，用于指示所述特定区域的位置信息；

关联资源定位符，用于指示所述目标图像关联的资源的统一资源定位符URL。

3.根据权利要求1所述的方法，其特征在于，所述目标媒体文件为视频文件，所述扩展信息为用于描述所述目标媒体文件的视频轨道关联的资源的信息的图像关联资源元数据轨道或所述扩展信息为用于描述所述目标媒体文件的实体组关联的资源的信息的图像关联资源实体组；

其中，所述图像关联资源元数据轨道包括以下信息中的至少一项：

关联资源数量，用于指示所述视频轨道或所述视频轨道中的图像关联的资源的数量；

关联资源标识，用于指示所述视频轨道或所述视频轨道中的图像关联的资源的标识；

关联区域标识，用于指示所述视频轨道中的图像中的特定区域关联有相应的资源，或用于指示所述视频轨道中的图像视频帧的整个区域关联有相应的资源；

关联区域信息，用于指示所述特定区域的位置信息；

关联资源定位符，用于指示所述视频轨道或所述视频轨道中的图像关联的资源的统一资源定位符URL；

其中，所述图像关联资源实体组包括以下中的至少一项：

图像关联资源盒，用于指示所述实体组关联的资源；

关联资源数，用于指示所述实体组关联的资源的数量；

关联资源定位符，用于指示所述实体组关联的资源的统一资源定位符URL；

实体组中实体数量，用于指示映射到所述实体组中的实体的数量；

实体标识，用于指示映射到所述实体组的实体的标识，所述实体标识的取值为项目的标识的取值或轨道的标识的取值。

4.根据权利要求3所述的方法，其特征在于，所述关联资源元数据轨道的样本入口包括所述关联资源数量和所述关联资源定位符；所述关联资源元数据轨道的当前视频样本包括与所述当前视频样本关联的资源的数目、与所述当前视频样本关联的资源的标识以及与所述当前视频样本关联的资源所对应的区域。

5.根据权利要求1所述的方法，其特征在于，所述目标媒体文件还包括扩展信息应用数据盒；

其中，所述扩展信息应用数据盒包括以下信息中的至少一项：

扩展类型，用于指示所述扩展信息的类型为文本信息或资源信息；

图像信息标识，用于指示所述目标媒体文件的图像项目是否包括所述扩展信息；

视频信息标识，用于指示所述目标媒体文件的视频轨道是否包括所述扩展信息。

6.根据权利要求1至5中任一项所述的方法，其特征在于，所述目标媒体文件的描述文件包括所述目标媒体文件的应用描述子；

其中，所述目标媒体文件的应用描述子包括以下信息中的至少一项：

7.根据权利要求1至5中任一项所述的方法，其特征在于，所述在所述多个媒体文件的描述文件中选择目标媒体文件的描述文件，包括：

确定所述客户端是否支持在图像中呈现信息或呈现用于用户对信息执行操作的控件；

若所述客户端支持在图像中呈现信息或呈现用于用户对信息执行操作的控件，则将所述多个媒体文件选择包括应用描述子的描述文件，确定为所述目标媒体文件的描述文件。

8.一种媒体文件传输方法，其特征在于，所述方法适用于服务器，所述方法包括：

向客户端发送媒体资源描述文件，所述媒体资源描述文件包括多个媒体文件的描述文件；

接收所述客户端发送的资源请求，所述资源请求用于请求所述多个媒体文件中的目标媒体文件；所述目标媒体文件包括所述目标媒体文件中的目标图像的扩展信息，所述扩展信息用于描述所述目标图像的文本属性或资源属性，或所述扩展信息用于当所述目标媒体文件为视频文件时，描述所述目标媒体文件的资源元数据轨道或资源实体组；

向所述客户端发送所述目标媒体文件。

9.一种媒体文件封装方法，其特征在于，所述方法应用于服务器，所述方法包括：

获取对目标图像或包括所述目标图像的视频进行编码得到的码流；

对所述码流进行封装，得到包括所述目标图像的扩展信息的目标媒体文件，所述扩展信息用于描述所述目标图像的文本属性或资源属性，或所述扩展信息用于当所述目标媒体文件为视频文件时，描述所述目标媒体文件的资源元数据轨道或资源实体组。

10.根据权利要求9所述的方法，其特征在于，所述目标媒体文件为图像文件，所述扩展信息为用于描述所述目标图像包含的文本信息以及文本信息的位置的图像项目文本属性；

其中，所述图像项目文本属性包括以下信息中的至少一项：

文本信息，用于指示所述目标图像包含的文本。

11.根据权利要求9所述的方法，其特征在于，所述目标媒体文件为图像文件，所述扩展信息为用于描述所述目标图像关联的资源的信息的图像项目关联资源属性，所述图像项目关联资源属性包括以下信息中的至少一项：

关联资源数，用于指示所述目标图像关联的资源的数量；

关联区域信息，用于指示所述特定区域的位置信息；

12.根据权利要求9所述的方法，其特征在于，所述目标媒体文件为视频文件，所述扩展信息为用于描述所述目标媒体文件的视频轨道关联的资源的信息的图像关联资源元数据轨道；

关联区域信息，用于指示所述特定区域的位置信息；

关联资源定位符，用于指示所述视频轨道或所述视频轨道中的图像关联的资源的统一资源定位符URL。

13.根据权利要求9所述的方法，其特征在于，所述目标媒体文件为视频文件，所述扩展信息为用于描述所述目标媒体文件的实体组关联的资源的信息的图像关联资源实体组；

所述图像关联资源实体组包括以下中的至少一项：

图像关联资源盒，用于指示所述实体组关联的资源；

关联资源数，用于指示所述实体组关联的资源的数量；

14.根据权利要求13所述的方法，其特征在于，所述关联资源元数据轨道的样本入口包括所述关联资源数量和所述关联资源定位符；所述关联资源元数据轨道的当前视频样本包括与所述当前视频样本关联的资源的数目、与所述当前视频样本关联的资源的标识以及与所述当前视频样本关联的资源所对应的区域。

15.根据权利要求9所述的方法，其特征在于，所述目标媒体文件还包括扩展信息应用数据盒；

16.一种媒体文件解封装方法，其特征在于，所述方法应用于客户端，所述方法包括：

获取目标媒体文件；

基于对所述目标媒体文件进行解封装得到目标图像的扩展信息或得到所述目标图像的码流和所述目标图像的扩展信息，所述扩展信息用于描述所述目标图像的文本属性或资源属性，或所述扩展信息用于当所述目标媒体文件为视频文件时，描述所述目标媒体文件的资源元数据轨道或资源实体组。

17.一种客户端，其特征在于，包括：

获取单元，用于获取媒体资源描述文件，所述媒体资源描述文件包括多个媒体文件的描述文件；

选择单元，用于在所述多个媒体文件的描述文件中选择目标媒体文件的描述文件；所述目标媒体文件包括所述目标媒体文件中的目标图像的扩展信息；所述扩展信息用于描述所述目标图像的文本属性或资源属性，或所述扩展信息用于当所述目标媒体文件为视频文件时，描述所述目标媒体文件的资源元数据轨道或资源实体组；

发送单元，用于基于所述目标媒体文件的描述文件发送资源请求，所述资源请求用于请求所述目标媒体文件；

接收单元，用于接收所述目标媒体文件；

响应单元，用于响应于在所述目标图像的目标区域上执行的选择操作，呈现所述扩展信息或呈现用于用户对所述扩展信息执行操作的控件。

18.一种服务器，其特征在于，包括：

发送单元，用于向客户端发送媒体资源描述文件，所述媒体资源描述文件包括多个媒体文件的描述文件；

接收单元，用于接收所述客户端发送的资源请求，所述资源请求用于请求所述多个媒体文件中的目标媒体文件；所述目标媒体文件包括所述目标媒体文件中的目标图像的扩展信息，所述扩展信息用于描述所述目标图像的文本属性或资源属性，或所述扩展信息用于当所述目标媒体文件为视频文件时，描述所述目标媒体文件的资源元数据轨道或资源实体组；

所述发送单元还用于向所述客户端发送所述目标媒体文件。

19.一种电子设备，其特征在于，包括：

处理器，适于执行计算机程序；

计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被所述处理器执行时，实现如权利要求1至7中任一项所述的方法、如权利要求8所述的方法、如权利要求9至15中任一项所述的方法、或如权利要求16所述的方法。

20.一种计算机可读存储介质，其特征在于，用于存储计算机程序，所述计算机程序使得计算机执行如权利要求1至7中任一项所述的方法、如权利要求8所述的方法、如权利要求9至15中任一项所述的方法、或如权利要求16所述的方法。