CN116980652A

CN116980652A - 一种多媒体数据传输方法和装置

Info

Publication number: CN116980652A
Application number: CN202310943087.5A
Authority: CN
Inventors: 肖启华; 莫志坚
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2023-07-28
Filing date: 2023-07-28
Publication date: 2023-10-31

Abstract

本申请公开一种多媒体数据传输方法和装置，方法包括，获得第一多媒体数据；生成表征第一多媒体数据的特征的多媒体标签；根据多媒体标签压缩第一多媒体数据，获得第二多媒体数据；向接收端发送第二多媒体数据和多媒体标签，以使得接收端依据第二多媒体数据和多媒体标签，得到第三多媒体数据，第三多媒体数据质量参数不小于第一多媒体数据的质量参数。

Description

一种多媒体数据传输方法和装置

技术领域

本申请属于数据处理技术领域，尤其涉及一种多媒体数据传输方法和装置。

背景技术

设备间传输视频数据时，发送端先压缩视频数据，再传输压缩后的视频数据，接收端先对压缩后的视频数据进行数据处理，再播放处理后的视频数据。

现有视频压缩技术中，视频压缩比越大，则压缩后的视频数据量越小，压缩后损失的信息越多，接收端处理后得到的视频数据失真也越严重。为了避免严重失真，设备在压缩视频数据时通常会设置较小的压缩比，导致压缩后的视频数据仍有较大的数据量，不利于传输。

发明内容

为此，本申请公开如下技术方案：

本申请第一方面提供一种多媒体数据传输方法，包括：

获得第一多媒体数据；

生成表征所述第一多媒体数据的特征的多媒体标签；

根据所述多媒体标签压缩所述第一多媒体数据，获得第二多媒体数据；

向接收端发送所述第二多媒体数据和所述多媒体标签，以使得所述接收端依据所述第二多媒体数据和所述多媒体标签，得到第三多媒体数据，所述第三多媒体数据质量参数不小于所述第一多媒体数据的质量参数。

可选的，所述生成表征所述第一多媒体数据的特征的多媒体标签，包括：

确定由连续的多个所述视频帧构成的分组，同一分组的所述视频帧之间内容相似度大于或等于预设的相似度阈值；

根据属于同一所述分组的多个所述视频帧，生成所述分组的多媒体标签，所述分组的多媒体标签表征所述分组内视频帧的内容。

可选的，还包括：

根据传输参数确定多媒体标签的数量，所述传输参数包括网络带宽和所述接收端的数量中至少一者。

可选的，所述根据所述多媒体标签压缩所述第一多媒体数据，包括：

对所述第一多媒体数据中和所述多媒体标签不匹配的数据块，按第一压缩比进行压缩；

对所述第一多媒体数据中和所述多媒体标签匹配的数据块，按第二压缩比进行压缩，所述第二压缩比大于所述第一压缩比。

可选的，所述多媒体标签分别表征所述第一多媒体数据内不同区域的多媒体数据的类型；

所述根据所述多媒体标签压缩所述第一多媒体数据，得到第二多媒体数据，包括：

对所述第一多媒体数据内不同区域的多媒体数据，按不同压缩比进行压缩；

其中，所述区域的多媒体数据的压缩比根据所述区域关联的多媒体标签确定。

可选的，所述向接收端发送所述第二多媒体数据和所述多媒体标签，包括：

在所述第二多媒体数据的附加数据中添加所述多媒体标签，所述附加数据包括音频数据和字幕数据中至少一者；

向接收端发送携带所述附加数据的所述第二多媒体数据。

本申请第二方面提供一种多媒体数据传输方法，包括：

从发送端接收第二多媒体数据和多媒体标签，所述第二多媒体数据由第一多媒体数据压缩得到，所述多媒体标签为表征所述第一多媒体数据的特征的标签；

根据所述多媒体标签对所述第二多媒体数据进行数据处理，获得第三多媒体数据，所述第三多媒体数据的质量参数不小于所述第一多媒体数据的质量参数。

可选的，根据所述多媒体标签对所述第二多媒体数据进行数据处理，包括：

选取和所述多媒体标签匹配的至少一个处理模型；

基于至少一个所述处理模型逐一对所述第二多媒体数据进行数据处理。

本申请第三方面提供一种多媒体数据传输装置，包括：

获得单元，用于获得第一多媒体数据；

生成单元，用于生成表征所述第一多媒体数据的特征的多媒体标签；

压缩单元，用于根据所述多媒体标签压缩所述第一多媒体数据，得到第二多媒体数据；

发送单元，用于向接收端发送所述第二多媒体数据和所述多媒体标签，以使得所述接收端依据所述第二多媒体数据和所述多媒体标签，得到第三多媒体数据，所述第三多媒体数据质量参数不小于所述第一多媒体数据的质量参数。

本申请第四方面提供一种多媒体数据传输装置，包括：

接收单元，用于从发送端接收第二多媒体数据和多媒体标签，所述第二多媒体数据由第一多媒体数据压缩得到，所述多媒体标签为表征所述第一多媒体数据的特征的标签；

处理单元，用于根据所述多媒体标签对所述第二多媒体数据进行数据处理，获得第三多媒体数据，所述第三多媒体数据的质量参数不小于所述第一多媒体数据的质量参数。

本申请公开一种多媒体数据传输方法和装置，方法包括，获得第一多媒体数据；生成表征第一多媒体数据的特征的多媒体标签；根据多媒体标签压缩第一多媒体数据，获得第二多媒体数据；向接收端发送第二多媒体数据和多媒体标签，以使得接收端依据第二多媒体数据和多媒体标签，得到第三多媒体数据，第三多媒体数据质量参数不小于第一多媒体数据的质量参数。通过生成并传输表征压缩前第一多媒体数据特征的标签，接收端在处理第二多媒体数据时能够以获得的标签为依据进行处理，即使发送端基于较大的压缩比进行压缩，接收端也能够基于收到的标签处理得到失真程度较低的第三多媒体数据，从而部分解决了相关技术中传输快和少失真之间的矛盾。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本申请实施例提供的一些相关技术中的多媒体数据传输系统的示意图；

图2是本申请实施例提供的一种多媒体数据传输系统的示意图；

图3是本申请实施例提供的一种多媒体数据传输方法的流程图；

图4是本申请实施例提供的另一种多媒体数据传输方法的流程图；

图5是本申请实施例提供的一种多媒体数据传输装置的结构示意图；

图6是本申请实施例提供的另一种多媒体数据传输装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参见图1，为本申请实施例提供的两种相关技术中多媒体数据传输系统的示意图。

其中一种多媒体数据传输系统的原理如图1的(a)所示。该系统中，发送端可以获得高质量的多媒体数据(简称高质量数据)，包括但不限于具有较高分辨率(例如1080p)的视频数据或者图像数据，具有较高比特率的音频数据等。

为了发送多媒体数据，发送端将高质量数据压缩，得到低质量的多媒体数据(简称低质量数据)，然后通过传输链路向接收端发送低质量数据。

接收端收到低质量数据后，通过输出设备直接输出低质量数据，例如，通过显示器直接显示较低分辨率(例如720p)的视频数据或者图像数据，通过音频播放器直接播放较低比特率的音频数据。

这种系统的问题在于，接收端的用户浏览到的多媒体数据质量较低，可能无法满足用户的使用需求。

另一种多媒体数据传输系统的原理如图1的(b)所示。该系统中，发送端和前一种系统一样，将获得的高质量数据压缩成低质量数据后，从传输链路发给接收端。

接收端获得低质量数据后，首先调用预先配置的处理模型对低质量数据进行数据处理，获得较高质量的高质量数据，然后通过输出设备输出处理得到的高质量数据。

例如，接收端用处理模型处理低分辨率的视频数据或图像数据，得到高分辨率的视频数据或图像数据，再用显示器显示后者；接收端用处理模型处理低比特率的音频数据，得到高比特率的音频数据，再用音频播放器播放后者。

这种系统的问题在于：

第一方面，为了满足各种类型，内容多样的多媒体数据的处理需求，接收端所配置的处理模型通常是包含大量模型参数的通用处理模型，导致调用处理模型处理低质量数据，需要消耗接收端的大量资源，对接收端的性能有较高要求，并且处理过程较为耗时，难以满足接收端用户实时浏览多媒体数据的需求。

第二方面，发送端将高质量数据压缩为低质量数据时会引入一定的损失，引入的损失会导致处理模型处理后的高质量数据，相比于发送端获得的原始高质量数据存在失真，压缩比越大，则失真越严重，减小压缩比可以减弱失真，但会导致低质量数据的数据量增大，导致低质量数据传输较慢。也就是说，这种系统中存在传输速度快和削弱失真程度之间的矛盾。

针对上述问题，本申请实施例提供一种多媒体数据传输系统，请参见图2，为该系统的原理示意图。

本实施例的传输系统中，发送端压缩高质量数据(相当于第一多媒体数据)之前，首先提取高质量数据的特征，基于这些特征生成若干用于表征高质量数据的特征的多媒体标签，根据多媒体标签对高质量数据进行压缩，获得低质量数据(相当于第二多媒体数据)，最后将低质量数据和多媒体标签一并通过传输链路发送给接收端。

接收端收到后，根据多媒体标签对低质量数据进行处理，获得高质量数据，再通过输出设备输出处理得到的高质量数据(相当于第三多媒体数据)。

一方面，基于多媒体标签的指示，接收端可以配置若干专门用于处理不同类型的多媒体数据的多个专用处理模型，收到以上数据后，接收端基于多媒体标签确定和收到的多媒体数据的特征相适配的专用处理模型，使用专用处理模型来处理低质量数据。

和图1的(b)中所用的通用处理模型相比，专用处理模型由于对通用性的要求较低，因此包含的模型参数较小，使用专用处理模型，接收端可以使用较少的计算资源更快的处理得到高质量数据，解决了图1的(b)所示系统中对接收端性能要求高，且实时性差的问题。

另一方面，基于多媒体标签的指示，即使发送端按较大的压缩比进行压缩，接收端也能够根据多媒体标签处理出较为接近原数据的高质量数据，从而部分解决多媒体数据传输中，传输速度快和削弱失真程度之间的矛盾。

根据图2所示的多媒体数据传输系统，本申请实施例提供一种多媒体数据传输方法，请参见图3，为该方法的流程图，该方法可以包括如下步骤。

本实施例提供的方法，具体可以由图2所示系统中的发送端执行。

S301，获得第一多媒体数据。

本实施例的多媒体数据，可以是图像数据、视频数据和音频数据中的任意一者。

第一多媒体数据，是发送端获得的较高质量的多媒体数据。

本实施例中，多媒体数据的高低可以通过质量参数的大小表示，针对不同种类的多媒体数据，对应的质量参数也不同。

示例性的，当多媒体数据是图像数据或者视频数据时，表示质量高低的质量参数为图像数据或视频数据的分辨率；

当多媒体数据是音频数据时，表示质量高低的质量参数为音频数据的比特率。

以视频数据为示例，本实施例的第一多媒体数据，可以是分辨率为1080p的视频数据。

发送端可以通过多种方式获得第一多媒体数据，包括但不限于使用采集设备从发送端所处环境中采集得到第一多媒体数据，从接入发送端的存储器中读取第一多媒体数据等。

续接前述示例，发送端可以通过配置的摄像头拍摄得到1080p的视频数据。

S302，生成表征第一多媒体数据的特征的多媒体标签。

在生成多媒体标签之前，发送端可以先确定需要生成的多媒体标签的数量，确定出的结果，可以是一个具体的数值，比如1000,2000等，也可以是一个多媒体标签的数量区间，比如1800至2300,800至1200等。

发送端可以基于多种参数来确定多媒体标签的数量，示例性的，发送端可以通过如下步骤确定多媒体标签的数量：

根据传输参数确定多媒体标签的数量，传输参数包括网络带宽和接收端的数量中至少一者。

也可以通过如下步骤确定多媒体标签的数量：

根据质量需求确定多媒体标签的数量。

根据网络带宽确定多媒体标签的情况。网络带宽较差时，为了保证视频传输速率，需要以较大的压缩比压缩第一多媒体数据，压缩得到的第二多媒体数据损失较大，此时为了弥补该损失可以确定较多的多媒体标签的数量；网络带宽较好时，可以按较小的压缩比压缩，此时第二多媒体数据的损失较小，只需要生成少量多媒体标签即可满足接收端对失真的需求，因此可以确定较少的多媒体标签的数量。

因此，根据网络带宽确定多媒体标签的策略可以是：

预先确定一个网络带宽和多媒体标签数量的映射关系，其中网络带宽越好，则映射的多媒体标签的数量越少，网络带宽越差，映射的多媒体标签的数量越多；

该映射关系可以是分段映射，即划分多个带宽区间，每一带宽区间映射一个多媒体标签的数量区间；发送端检测网络带宽后，根据该映射关系确定出该网络带宽对应的多媒体标签数量(或数量区间)。

进一步的，考虑到网络带宽会在视频传输过程中动态变化，发送端定时检测(例如每10分钟检测一次)发送端和接收端之间的网络带宽，基于上述策略，根据当前检测到的网络带宽确定本次检测到下一次检测之间需要生成的多媒体标签的数量。

根据接收端的数量确定多媒体标签数量的情况。对于同一发送端，接入该发送端的接收端越多，受该发送端发送数据能力的限制，发送端分配给每个接收端的带宽就越小，对应的就需要以较大的压缩比进行压缩来保证多媒体数据的传输，此时，和根据网络带宽确定数量时类似的，需要确定较多的多媒体标签的数量，以通过较多的多媒体标签弥补高压缩比带来的损失，相对的，在接收端数量较少时，压缩比较小，压缩后的第二多媒体数据的损失较小，此时就可以确定较少的多媒体标签数量。

在一些应用场景中，接收端的数量也可能动态变化，例如在多人视频会议的场景中，接入会议的人数可能会变化，相应的接收端的数量也会变化。

此时可以参照前述根据网络带宽动态地确定多媒体标签数量的方式，根据接收端的数量动态地确定多媒体标签数量。

根据质量需求确定多媒体标签的数量。质量需求，是指接收端对第三多媒体数据的质量需求，第三多媒体数据，是指接收端根据压缩后的第二多媒体数据处理后得到的多媒体数据。

本实施例中，质量需求可以用第三多媒体数据相对于第一多媒体数据的失真程度表示，也可以用第三多媒体数据的期望分辨率表示。

接收端要求的失真程度越低，则为了满足低失真的需求，需要确定出的多媒体标签的数量越多，接收端要求的失真程度越高，说明接收端可以接受失真较严重的第三多媒体数据，此时可以确定较少的多媒体标签的数量。

接收端期望的分辨率越高，则需要确定出的多媒体标签的数量越多，接收端期望的分辨率越低，则需要确定出的多媒体标签的数量越少。

质量需求，可以直接在发送端设定，也可以在接收端设定后，由接收端发给发送端。

当第一多媒体数据是视频数据时，步骤S302的执行过程可以包括：

确定由连续的多个视频帧构成的分组，同一分组的视频帧之间内容相似度大于或等于预设的相似度阈值；

根据属于同一分组的多个视频帧，生成分组的多媒体标签，分组的多媒体标签表征分组内视频帧的内容。

这里的相似度阈值可以是一个预设的固定值，也可以根据实际情况调整。

例如，在确定了需要生成的多媒体标签的数量后，可以基于该数量确定合适的相似度阈值，当需要生成较多的多媒体标签时，可以设置一个较高的相似度阈值，从而将第一多媒体数据划分为较多的分组，从而产生较多的多媒体标签，当需要生成较少的多媒体标签时，可以设置一个较低的相似度阈值，使得每个分组内包含较多的视频帧，减少划分出的分组的数量，从而产生较少的多媒体标签。

当第一多媒体数据是音频数据时，步骤S302的执行过程可以包括：

确定由连续的多个音频帧构成的分组，同一分组的音频帧之间内容相似度大于或等于预设的相似度阈值；

根据属于同一分组的多个音频帧，生成分组的多媒体标签，分组的多媒体标签表征分组内音频帧的内容。

当第一多媒体数据是图像数据时，步骤S302的执行过程可以包括：

将第一多媒体数据划分为多个区域，根据每一区域的内容生成该区域的多媒体标签。

以第一多媒体数据是视频数据为例，说明针对一个分组，根据其中各视频帧的内容生成该分组对应的多媒体标签的过程，该过程包括如下步骤A1和A2。

A1，首先，从预设的多个维度选择若干个维度。

示例性的，预设的多个维度可以包括但不限于：尺寸，亮度，显示物体的颜色，显示物体的轮廓，显示物体的尺寸，显示物体的位置，脸部特征，脸部在视频帧的占比，人体动作和姿态，物体和背景的对比度，显示的文字内容，文字和背景的对比度，视频帧的噪点数量，文字区域在视频帧的占比，文字的字体和大小，视频窗口的数量和尺寸等。

发送端可以根据前面确定的需要生成的多媒体标签的数量，以及分组内视频帧的情况，在预设的多个维度中选择若干个维度。

根据需要生成的多媒体标签的数量选择维度，是指，当需要生成的多媒体标签较多时，发送端可以选择较多的维度，以便提取出较多的标签，当需要生成的多媒体标签较少时，发送端可以选择较少的维度，以便提取少量标签。

根据分组内视频帧的情况选择维度，包括，第一方面，发送端可以识别分组内各视频帧的内容，根据分组内的视频帧是否显示有特定的对象而选择或不选择对应维度，例如，若识别发现分组内的视频帧未显示脸部和人体，则不选择脸部特征，人体动作和姿态等和人体相关的维度；若识别发现分组内有较多的文字，则选择显示的文字内容，文字和背景的对比度等和文字相关的维度；若视频帧内显示的物体具有规则的轮廓(如矩形轮廓)，则选择显示物体的轮廓维度，如物体没有规则的轮廓则不选择该维度。

第二方面，发送端可以识别当前分组和之前其他分组之间在特定维度上有无区别，如果有区别，则发送端选择该维度，以便提取该分组在该维度上的标签，如果没有区别，则发送端不选择该维度，接收端在处理时，直接复用前一分组在该维度上的标签即可。

示例性的，发送端可以识别当前分组和前一分组在亮度上有无区别，如果当前分组和前一分组中视频帧的亮度一致，那么发送端不选择亮度这一维度，对应的在步骤A2中就不生成该分组的亮度标签，如果当前分组和前一分组中视频帧的亮度不一致，那么发送端选择亮度这一维度，对应的在步骤A2中可以生成该分组的亮度标签。

A2，基于选择的维度提取分组内各视频帧的对应特征，提取的特征作为该分组的多媒体标签。

在步骤A2中，发送端可以按照A1中选择的维度，逐一识别分组内各视频帧在对应维度上的特征，从而获得对应维度的多媒体标签。

多媒体标签可以有多种形式，本实施例对此不做限定。

作为一个示例，发送端提取的多媒体标签，可以由所属维度和视频帧在该维度的特征组成。

下面结合前述示例的维度，列举几个可能的多媒体标签作为示例：

当分组内的视频帧显示有一件或多件衣服时，提取的多媒体标签可以包括：衣服颜色，红色；衣服的位置，(x，y)；

当分组内的视频帧显示有电子文档或者纸质文件上的文字时，提取的多媒体标签可以包括：显示文字内容，“XX学校”；文字和背景的对比度，x；

当分组内的视频帧显示有若干个人及其脸部时，提取的多媒体标签可以包括：人体姿态，站立；脸部特征，有眼镜；

当分组内的视频帧显示有流程图时，提取的多媒体标签可以包括：流程图中节点的轮廓，矩形(或者圆形)。

可以理解，以上多媒体标签仅作为示例，实际应用中发送端生成的多媒体标签可以包括上述标签，可以不包括上述标签，也可以包括除上述标签以外的标签。

S303，根据多媒体标签压缩第一多媒体数据，获得第二多媒体数据。

第二多媒体数据的质量参数小于或者等于第一多媒体数据的质量参数。

即，多媒体数据是音频数据的情况下，第二多媒体数据的比特率小于或等于第一多媒体数据；

多媒体数据是视频数据或图像数据的情况下，第二多媒体数据的分辨率小于或等于第一多媒体数据。

步骤S303的一种可选的实施方式是，包括：

对第一多媒体数据中和多媒体标签不匹配的数据块，按第一压缩比进行压缩；

对第一多媒体数据中和多媒体标签匹配的数据块，按第二压缩比进行压缩，第二压缩比大于第一压缩比。

以第一多媒体数据是视频数据为例，在执行S303时，针对一个分组，发送端可以将该分组内的每一视频帧划分成若干区域，每一区域都是一个数据块。

然后，对于每一数据块，发送端将该数据块和该分组的多媒体标签进行比对，如果该数据块能够和该分组的至少一个多媒体标签匹配上，就以较大的第二压缩比压缩该数据块，如果该数据库未匹配上任意一个多媒体标签，则以较小的第一压缩比压缩该数据块。

续接前述示例，当提取的多媒体标签包括前述衣服颜色的标签时，若一个数据块中显示有该标签所指示的颜色的衣服，则确定该数据块和该标签匹配，若该数据块未显示该标签所指示的颜色的衣服，则确定该数据块和该标签不匹配；

当提取的多媒体标签包括前述显示文字内容标签时，若一个数据块中显示有标签所指示的文字，则确定该数据块和该标签匹配，若该数据块未显示该标签所指示的文字，则确定该数据块和该标签不匹配；

当提取的多媒体标签包括前述人体姿态标签时，若一个数据块中显示有该姿态的人体图像，则确定该数据块和该标签匹配，反之则确定两者不匹配。

进一步可选的，当第一多媒体数据是视频数据时，发送端生成的多媒体标签，还可以包括用于指示视频帧中不同区域的数据类型的标签。

例如，多媒体标签可以包括：(x1，y1)区域的类型，背景；(x2，y2)区域的类型，人脸；(x3，y3)区域的类型，衣服，等等。

其中，(x1，y1)，(x2，y2)可以理解为不同区域中特定点的坐标，例如中心点的坐标，左上角顶点的坐标等，通过该坐标以区分不同区域。

也就是说，多媒体标签可以分别表征第一多媒体数据内不同区域的多媒体数据的类型。

根据多媒体标签所指示的不同区域多媒体数据的类型，发送端可以按如下方式对第一多媒体数据进行压缩：

对第一多媒体数据内不同区域的多媒体数据，按不同压缩比进行压缩；

其中，区域的多媒体数据的压缩比根据区域关联的多媒体标签确定。

针对不同区域，发送端可以根据多媒体标签所指示的该区域中数据的类型，确定该区域的重要程度，对重要程度较高的区域，基于较小的压缩比进行压缩，以避免压缩后该区域的损失过大，对重要程度较低的区域，可以基于较大的压缩比进行压缩。

示例性的，在视频通话场景中，若多媒体标签指示视频帧的某区域属于人脸区域，则确定该区域的重要程度较高，按较小的压缩比压缩该区域的数据，若多媒体标签指示视频帧的某区域属于背景区域，则确定该区域的重要程度较低，以较大的压缩比压缩该区域的数据。

进一步可选的，针对压缩比较大的区域，发送端可以生成较多的和该区域关联的多媒体标签，有利于接收端根据标签尽可能的恢复该区域的数据。

续接前述示例，针对属于背景的区域，发送端可以生成表示该区域内色调，亮度，阴影等多个维度的特征的标签。

S304，向接收端发送第二多媒体数据和多媒体标签，使接收端依据第二多媒体数据和多媒体标签，得到第三多媒体数据。

第三多媒体数据质量参数不小于第一多媒体数据的质量参数。

示例性的，当本实施例的多媒体数据属于视频数据或者图像数据时，第三多媒体数据的分辨率不小于第一多媒体数据的分辨率；

当本实施例的多媒体数据属于音频数据时，第三多媒体数据的比特率不小于第一多媒体数据的比特率。

在步骤S304中，发送端可以通过多种方式向接收端发送多媒体标签。

例如，当多媒体数据为视频数据时，发送端发送多媒体标签和第二多媒体数据的方式可以是：

在第二多媒体数据的附加数据中添加多媒体标签，附加数据包括音频数据和字幕数据中至少一者；

向接收端发送携带附加数据的第二多媒体数据。

添加到音频数据的情况下，发送端可以将多媒体标签处理成对应的标签字符串，然后利用语音合成技术，根据表示标签字符串合成标签字符串对应的标签语音，再将标签语音添加到第二多媒体数据对应的音频数据中。

添加到字幕数据的情况下，发送端可以将多媒体标签处理成对应的标签字符串，然后将标签字符串添加到第二多媒体数据的字幕数据中。

示例性的，第一多媒体数据原本的字幕数据可能是“一群斑马在草原上奔跑”，发送端生成的多媒体标签，用标签字符串表示的场合，可以包括“分辨率，1080p”，以及“天空颜色，蓝色”，则发送端可以将标签字符串插入前述字幕数据的末尾，获得携带多媒体标签的字幕数据，即“一群斑马在草原上奔跑；‘分辨率，1080p’；‘天空颜色，蓝色’”。

在上述发送方式中，添加多媒体标签的位置，可以根据多媒体标签对应的视频帧确定。

发送端添加多媒体标签时，可以先确定这些多媒体标签对应于哪些视频帧，接着确定一个由这些视频帧中首个视频帧的时间戳和末个视频帧的时间戳组成的时间范围，最后，将需要添加的几个多媒体标签添加到在该时间范围内输出的字幕数据或者音频数据中。

这样做的好处在于，便于接收端根据添加多媒体标签的位置，确定多媒体标签和视频帧之间的对应关系。

通过附加数据发送多媒体标签的好处在于，可以复用发送端和接收端之间原本的传输协议和传输格式，而无需针对多媒体标签的传输设计新的传输协议和格式，这使得本实施例的方法具有更广的适用范围。

在一些可选的实施例中，部分多媒体数据可能包含描述信息，包括但不限于，该多媒体数据的名称和来源等，例如，视频数据可能包含视频名称，拍摄该视频的拍摄设备的标识符、类型等信息，音频数据可能包含音频时长，录制设备的标识符和类型等信息。

基于此，发送端可以将多媒体标签处理成标签字符串，将标签字符串添加到第二多媒体数据的描述信息中，将第二多媒体数据和携带多媒体标签的描述信息一并发给接收端。

本申请公开一种多媒体数据传输方法，方法包括，获得第一多媒体数据；生成表征第一多媒体数据的特征的多媒体标签；根据多媒体标签压缩第一多媒体数据，获得第二多媒体数据；向接收端发送第二多媒体数据和多媒体标签，以使得接收端依据第二多媒体数据和多媒体标签，得到第三多媒体数据，第三多媒体数据质量参数不小于第一多媒体数据的质量参数。通过生成并传输表征压缩前第一多媒体数据特征的标签，接收端在处理第二多媒体数据时能够以获得的标签为依据进行处理，即使发送端基于较大的压缩比进行压缩，接收端也能够基于收到的标签处理得到失真程度较低的第三多媒体数据，从而部分解决了相关技术中传输快和少失真之间的矛盾。

本申请实施例还提供一种多媒体数据传输方法，用于对发送端发送的第二多媒体数据和多媒体标签进行处理，以得到第三多媒体数据。

请参见图4，为该方法的流程图，该方法可以包括如下步骤。

本实施例提供的多媒体数据传输方法，可以由图2所示的接收端执行。

S401，从发送端接收第二多媒体数据和多媒体标签，第二多媒体数据由第一多媒体数据压缩得到，多媒体标签为表征第一多媒体数据的特征的标签。

接收端接收第二多媒体数据和多媒体标签的方式，可以参见S304中发送端发送第二多媒体数据和多媒体标签的方式，不再赘述。

S402，根据多媒体标签对第二多媒体数据进行数据处理，获得第三多媒体数据。

第三多媒体数据的质量参数不小于第一多媒体数据的质量参数。例如，多媒体数据为视频数据或图像数据时，第三多媒体数据的分辨率不小于第一多媒体数据的分辨率；多媒体数据为音频数据时，第三多媒体数据的比特率不小于第一多媒体数据的比特率。

可选的，S402的一种实施方式是：

选取和多媒体标签匹配的至少一个处理模型；

基于至少一个处理模型逐一对第二多媒体数据进行数据处理。

下面以第一多媒体数据是视频数据为例，根据多媒体标签选择处理模型，具体可以包括如下几种情况。

情况一，当文字区域在视频帧的占比标签指示某个分组的视频帧中文字较多时，可以在多个处理模型中选择适用于处理文字图像的文字模型，使用文字模型处理该分组的第二多媒体数据。

情况二，当脸部在视频帧的占比标签指示某个分组的视频帧的内容以人物脸部为主时，可以在多个处理模型中选择适用于处理脸部图像的脸部模型，使用脸部模型处理该分组的第二多媒体数据。

情况三，根据视频帧的噪点数量标签选择合适的处理模型，若噪点数量较多，则选择降噪能力较强的处理模型处理第二多媒体数据，若噪点数量较少，则选择降噪能力较弱的处理模型处理第二多媒体数据。

情况四，在多人视频会议的应用场景中，发送端输出的第一多媒体数据的视频帧中，可能显示有多个视频窗口，其中每个视频窗口，用于显示对应的一个会议接入端的图像。

而随着会议的进行，其中部分视频窗口可能被最小化，导致视频帧中显示视频窗口的数量和尺寸发生变化，视频窗口的数量和尺寸标签，就用于指示发送端的电脑桌面所显示的视频窗口的数量，以及这些视频窗口的尺寸。

根据视频帧中显示的视频窗口的数量和尺寸的不同，适用的处理模型可能不同，因此可以根据视频窗口的数量和尺寸选择合适的处理模型对第二多媒体数据进行处理。

情况五，可以根据多媒体标签所指示的，第一多媒体数据的分辨率，选择合适的处理模型进行处理。例如，第一多媒体数据的分辨率是1080p，则选择适于处理1080p的视频数据的处理模型，第一多媒体数据的分辨率是720p，则选择适于处理720p的视频数据的处理模型。

可选的，S402的另一种可选的实施方式是：

将多媒体标签输入处理模型，使所述处理模型根据所述多媒体标签处理第二多媒体数据，得到第三多媒体数据。

下面以第一多媒体数据是视频数据为例，对上述实施方式进行说明。

示例性的，可以将多媒体标签中和文字相关的标签，如显示的文字内容，文字和背景的对比度，文字的字体和大小等输入处理模型中，这样处理模型在获得第三多媒体数据时，只需要根据第二多媒体数据处理出视频中非文字的背景部分，然后利用上述和文字相关的标签在该背景上直接生成对应的文字内容，就可以获得显示有和第一多媒体数据相同文字内容的第三多媒体数据。

或者，也可以仅向处理模型输入文字和背景的对比度标签，使得处理模型基于该标签指示的对比度处理得到第三多媒体数据，从而突出文字区域内黑体的文字，弱化背景部分，显示更清晰的文字内容。

还可以将和视频帧显示的物体相关的标签，例如显示物体的颜色，显示物体的轮廓，显示物体的尺寸，显示物体的位置等标签，输入处理模型，使得处理模型基于这些标签在第三多媒体数据中处理得到对应的物体。

可选的，以上两种实施方式也可以结合使用，即，可以根据一部分多媒体标签选择合适的处理模型，然后将另一部分多媒体标签输入处理模型，作为处理模型获得第三多媒体数据的依据。

可以理解的，发送端在生成多媒体标签时可以将第一多媒体数据进行分组，因此接收端执行S402时，也可以针对第二多媒体数据的每一分组，根据该分组的多媒体标签，按照前述方式调用处理模型对该分组的数据进行处理。

例如，发送端将第一多媒体数据的第1至50个视频帧划分为1个分组，并针对该分组生成相关的多个多媒体标签，则接收端收到第二多媒体数据后，针对根据相关的多个多媒体标签调用处理模型处理第二多媒体数据的第1至50个视频标签，得到第三多媒体数据的第1至50个视频帧。在处理第二多媒体数据的下一个分组时，接收端则根据下一个分组的多媒体标签调用处理模型进行处理。

本实施例中所用的处理模型，可以包括用于将低分辨率视频恢复为高分辨率视频的超分模型。基于处理模型对第二多媒体数据进行的数据处理，可以包括基于超分模型对第二多媒体数据进行超分处理。

本实施例的有益效果和图3对应的实施例的有益效果一致，不再赘述。

根据本申请实施例提供的多媒体数据传输方法，本申请实施例还提供一种多媒体数据传输装置，请参见图5，为其中一种多媒体数据传输装置的示意图，该装置可以包括如下单元。

获得单元501，用于获得第一多媒体数据；

生成单元502，用于生成表征第一多媒体数据的特征的多媒体标签；

压缩单元503，用于根据多媒体标签压缩第一多媒体数据，得到第二多媒体数据；

第二多媒体数据的质量参数小于或等于第一多媒体数据的质量参数。

发送单元504，用于向接收端发送第二多媒体数据和多媒体标签，以使得接收端依据第二多媒体数据和多媒体标签，得到第三多媒体数据，第三多媒体数据质量参数不小于第一多媒体数据的质量参数。

本实施例提供的多媒体数据传输装置，可以视为图2所示系统中的发送端。

可选的，生成单元502生成表征第一多媒体数据的特征的多媒体标签时，具体用于：

可选的，生成单元502还用于：

可选的，压缩单元503根据多媒体标签压缩第一多媒体数据时，具体用于：

可选的，多媒体标签分别表征第一多媒体数据内不同区域的多媒体数据的类型；

压缩单元503根据多媒体标签压缩第一多媒体数据，得到第二多媒体数据时，具体用于：

可选的，发送单元504向接收端发送第二多媒体数据和多媒体标签时，具体用于：

向接收端发送携带附加数据的第二多媒体数据。

本实施例提供的多媒体数据传输装置，其具体工作原理和有益效果可以参见本申请实施例提供的适用于发送端的多媒体数据传输方法，不再赘述。

请参见图6，为本申请实施例提供的另一种多媒体数据传输装置的示意图，该装置可以包括如下单元。

接收单元601，用于从发送端接收第二多媒体数据和多媒体标签，第二多媒体数据由第一多媒体数据压缩得到，多媒体标签为表征第一多媒体数据的特征的标签；

处理单元602，用于根据多媒体标签对第二多媒体数据进行数据处理，获得第三多媒体数据，第三多媒体数据的质量参数不小于第一多媒体数据的质量参数。

本实施例提供的多媒体数据传输装置，相当于图2所示系统的接收端。

可选的，处理单元602根据多媒体标签对第二多媒体数据进行数据处理时，具体用于：

选取和多媒体标签匹配的至少一个处理模型；

本实施例提供的多媒体数据传输装置，其具体工作原理和有益效果可以参见本申请实施例提供的适用于接收端的多媒体数据传输方法，不再赘述。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

为了描述的方便，描述以上系统或装置时以功能分为各种模块或单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

最后，还需要说明的是，在本文中，诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种多媒体数据传输方法，包括：

获得第一多媒体数据；

生成表征所述第一多媒体数据的特征的多媒体标签；

2.根据权利要求1所述的方法，所述生成表征所述第一多媒体数据的特征的多媒体标签，包括：

3.根据权利要求1所述的方法，还包括：

4.根据权利要求1所述的方法，所述根据所述多媒体标签压缩所述第一多媒体数据，包括：

5.根据权利要求1所述的方法，所述多媒体标签分别表征所述第一多媒体数据内不同区域的多媒体数据的类型；

6.根据权利要求1所述的方法，所述向接收端发送所述第二多媒体数据和所述多媒体标签，包括：

向接收端发送携带所述附加数据的所述第二多媒体数据。

7.一种多媒体数据传输方法，包括：

8.根据权利要求7所述的方法，根据所述多媒体标签对所述第二多媒体数据进行数据处理，包括：

选取和所述多媒体标签匹配的至少一个处理模型；

9.一种多媒体数据传输装置，包括：

获得单元，用于获得第一多媒体数据；

10.一种多媒体数据传输装置，包括：