CN116723333B

CN116723333B - 基于语义信息的可分层视频编码方法、装置及产品

Info

Publication number: CN116723333B
Application number: CN202310962038.6A
Authority: CN
Inventors: 程宝平; 陶晓明; 汤成; 谢小燕; 付涛
Original assignee: Tsinghua University; China Mobile Hangzhou Information Technology Co Ltd
Current assignee: Tsinghua University; China Mobile Hangzhou Information Technology Co Ltd
Priority date: 2023-08-02
Filing date: 2023-08-02
Publication date: 2023-10-31
Anticipated expiration: 2043-08-02
Also published as: CN116723333A

Abstract

本发明提供了一种基于语义信息的可分层视频编码方法、装置及产品，涉及视频编解码技术领域。本发明实施例中，背景层数据是针对视频流图像数据中的较为固定的背景进行编码得到的，在解码端可以利用先验知识合成图像数据的背景信息；语义单元层数据是针对视频流图像数据中变化的前景目标进行编码得到的，在接收端根据语义信息和先验知识恢复视频流图像数据中的前景目标内容，语义增强层数据是在前两层的基础上，通过计算真实视频和合成视频之间前景目标区域的差异得到的，在解码端对通过背景层数据和语义单元层数据合成的视频进行细节补充，解决了可分层视频编码由于分层的维度导致视频重建存在质量下降的问题。

Description

基于语义信息的可分层视频编码方法、装置及产品

技术领域

本发明实施例涉及视频编解码技术领域，尤其涉及一种基于语义信息的可分层视频编码方法、装置及产品。

背景技术

可分层视频编码是一种将视频流分割为多层不同分辨率、质量或帧率的码流的技术，旨在实现用户在不同网络条件、不同终端算力条件下的差异化视频编码。

利用可分层视频编码方法可以通过一次编码产生不同帧率、分辨率或图像质量的多层码流，在解码端进行自适应的调整得到对应分层的重建视频。可分层视频编码方法在视频监控、视频通信等领域广泛应用。现有的可分层视频编码方法通常分为三类：时域分层、空间分层和质量分层。

其中，时域可分层视频编码方法具体为：对于不同的视频层使用不同的帧率，在带宽受限情况下只传输基本层帧，帧率较低；在带宽增加情况下，可传输基本层帧+增强层帧，帧率较高。

空域可分层编码方法具体为：对原始视频帧进行多空间分辨率分解，在带宽有限情况下传输空域基本层，分辨率低；随着带宽增加，可传输空域增强层，分辨率上升。

质量可分层编码方法具体为：通过调整各层使用的量化精度，使得各层视频具有不同的峰值信噪比(PSNR)，基本层使用粗糙量化器，重建质量低，适用于低带宽条件；增强层使用更精细的量化器，重建质量高，适用于高带宽条件。

上述三种可分层视频编码方法中，没有充分挖掘视频中的高层次语义信息，未考虑接收端对视频中不同内容的关注度，同时上述三种可分层编码方法与非分层编码相比，由于分层的维度导致基础层视频重建存在质量下降的问题。

由此可见，目前亟需一种新的可分层视频编码方法。

发明内容

本发明实施例提供一种基于语义信息的可分层视频编码方法，以至少部分解决相关技术中存在的问题。

本发明实施例第一方面，提供了一种基于语义信息的可分层视频编码方法，应用于编码端，所述方法包括：

获取目标码率和视频流图像数据；

将所述目标码率和所述视频流图像数据输入预先训练的语义分层网络的编码器，所述编码器基于所述目标码率对所述视频流图像数据进行分层编码，得到所述视频流图像数据包括的每一帧视频图像对应的语义单元层数据、背景层数据和语义增强层数据，所述语义增强层数据用于对语义单元层数据针对的前景目标区域进行增强；

将所述语义单元层数据、背景层数据、和语义增强层数据基于熵编码传输至解码端；所述解码端用于接收所述语义单元层数据、背景层数据和语义增强层数据，并基于预先训练的语义分层网络的解码器对所述语义单元层数据和背景层数据进行重建、或者基于预先训练的语义分层网络的解码器对所述语义单元层、背景层、和语义增强层进行重建，得到所述视频流图像数据。

可选地，所述方法还包括：

判断当前帧视频图像数据对应的背景层数据和上一帧视频图像数据对应的背景层数据的相似度；

将所述语义单元层数据、背景层数据和语义增强层数据基于熵编码传输至解码端，包括：

在相似度小于预设阈值的情况下，将当前帧视频图像数据对应的背景层数据、语义单元层数据和语义增强层数据基于熵编码传输至解码端；

在相似度不小于预设阈值的情况下，将当前帧视频图像数据对应的语义单元层数据和语义增强层数据基于熵编码传输至解码端。

可选地，所述预先训练的语义分层网络，是以样本原始图像数据和样本目标码率为输入、样本重建图像数据为输出对预设网络进行训练得到的；

所述预设网络包括：编码器和解码器，所述编码器用于基于样本原始图像数据和样本目标码率输出样本背景层数据、样本语义单元层数据和样本语义增强层数据，所述解码器用于基于编码器输出的样本背景层数据、样本语义单元层数据和样本语义增强层数据得到样本重建图像、或者基于背景层数据、样本语义单元层数据得到样本重建图像。

可选地，在所述预设网络的训练过程中，损失函数采用下式：

；

)-b；

其中，表示输入编码器的样本原始图像数据，/>表示解码器输出的样本重建图像数据；/>表示输入编码器的样本原始图像数据的前景目标区域，/>表示解码器输出的样本重建图像数据的前景目标区域，/>表示编码器输出的样本语义增强层数据，/>表示编码器输出的语义单元层数据，/>分别表示语义单元层数据和语义增强层数据所占权重，b表示样本目标码率。

可选地，所述编码器中包括码率早停单元，所述编码器基于所述目标码率对所述视频流图像数据进行分层编码，包括：

所述编码器基于码率早停单元根据所述目标码率和当前特征层判断是否跳过下一个卷积模块，以对所述视频流图像数据进行分层编码。

本发明实施例第二方面，提供了一种基于语义信息的可分层视频编码方法，应用于解码端，所述方法包括：

接收编码端基于熵编码传输的语义单元层数据、背景层数据和语义增强层数据，所述语义增强层数据用于对语义单元层数据针对的前景目标区域进行增强；

基于预先训练的语义分层网络的解码器对所述语义单元层数据和背景层数据进行重建，得到所述视频流图像数据，或者

基于预先训练的语义分层网络的解码器对所述语义单元层数据、背景层数据、和语义增强层数据进行重建，得到所述视频流图像数据；

其中，所述语义单元层数据、背景层数据和语义增强层数据是编码器在获取目标码率和视频流图像数据、将所述目标码率和所述视频流图像数据输入预先训练的语义分层网络的编码器、所述编码器基于所述目标码率对所述视频流图像数据进行分层编码得到的。

；

)-b；

本发明实施例第三方面，提供了一种基于语义信息的可分层视频编码装置，应用于编码端，所述装置包括：

获取模块，用于获取目标码率和视频流图像数据；

输入模块，用于将所述目标码率和所述视频流图像数据输入预先训练的语义分层网络的编码器，所述编码器基于所述目标码率对所述视频流图像数据进行分层编码，得到所述视频流图像数据包括的每一帧视频图像对应的语义单元层数据、背景层数据和语义增强层数据，所述语义增强层数据用于对语义单元层数据针对的前景目标区域进行增强；

传输模块，用于将所述语义单元层数据、背景层数据、和语义增强层数据基于熵编码传输至解码端；所述解码端用于接收所述语义单元层数据、背景层数据和语义增强层数据，并基于预先训练的语义分层网络的解码器对所述语义单元层数据和背景层数据进行重建、或者基于预先训练的语义分层网络的解码器对所述语义单元层、背景层、和语义增强层进行重建，得到所述视频流图像数据。

可选地，所述装置还包括：

判断模块，用于判断当前帧视频图像数据对应的背景层数据和上一帧视频图像数据对应的背景层数据的相似度；

所述传输模块，具体用于：

；

)-b；

本发明实施例第四方面，提供了一种基于语义信息的可分层视频编码装置，应用于解码端，所述装置包括：

接收模块，用于接收编码端基于熵编码传输的语义单元层数据、背景层数据和语义增强层数据，所述语义增强层数据用于对语义单元层数据针对的前景目标区域进行增强；

重建模块，用于基于预先训练的语义分层网络的解码器对所述语义单元层数据和背景层数据进行重建，得到所述视频流图像数据，或者

；

)-b；

本发明实施例第五方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明第一方面或者第二方面所述的基于语义信息的可分层视频编码方法的步骤。

本发明实施例第六方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现如本发明第一方面或者第二方面所述的基于语义信息的可分层视频编码方法的步骤。

本发明具有以下优点：

本发明实施例提出的基于语义信息的可分层视频编码方法，可以利用深度神经网络技术，提取解码端（接收端）关注的语义单元层和语义增强层，通过语义增强层对语义单元层数据针对的前景目标区域进行增强，保证了接收端关注的前景目标区域的高质量重建。并且，采用本发明实施例提出的基于语义信息的可分层视频编码方法，能够根据用户确定的目标码率控制调整各层的码率，实现有效地码率控制。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种基于语义信息的可分层视频编码方法的流程示意图；

图2是本发明实施例的一种基于语义信息的可分层视频编码方法中的语义分层网络的训练过程示意图；

图3是本发明实施例的一种基于语义信息的可分层视频编码方法中的编码器的语义分层编码神经网络结构示意图；

图4是本发明实施例的一种基于语义信息的可分层视频编码方法的流程示意图；

图5是本发明实施例的一种基于语义信息的可分层视频编码方法的流程示意图；

图6是本发明实施例的一种基于语义信息的可分层视频编码方法的交互流程示意图；

图7是发明实施例提供的基于语义信息的可分层视频编码装置的示意图；

图8是发明实施例提供的基于语义信息的可分层视频编码装置的示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例中，首先对相关技术中提出的几种可分层编码方法进行了分析，发现相关技术中提出的分层维度容易导致基础层视频重建存在质量下降的问题。具体表现为：1)时域可分层编码方法中，各层的帧率固定，无法根据视频内容进行帧率动态调整；2)空域可分层编码方法中，增强层空间分辨率增加，但无法保证提高原视频中用户感兴趣区域的重建质量；3)质量可分层编码方法中，各层量化精度的选择未针对视频内容特性进行动态调整。4）可分层编码未考虑接收端感兴趣目标区域进行差异化编码。

由此，本发明实施例中提出了一种可以实现对接收端感兴趣目标区域进行高质量重建的可分层编码方法。具体的，参照图1，示出了本发明实施例的一种基于语义信息的可分层视频编码方法的流程示意图，如图1所示，本发明实施例提供的基于语义信息的可分层视频编码方法，应用于编码端，所述方法包括以下步骤：

S101，获取目标码率和视频流图像数据。

本发明实施例中，编码端指的是对获取视频图像数据进行编码并传输出去的终端。具体的，编码端可以是视频生成端对应的终端，也可以是视频处理端对应的终端。

本发明实施例中，目标码率可以是用户通过编码端上设置的用户接口输入的。

本发明实施例中，视频流图像数据包括至少两帧视频图像数据。

S102，将所述目标码率和所述视频流图像数据输入预先训练的语义分层网络的编码器。

具体的，所述编码器基于所述目标码率对所述视频流图像数据进行分层编码，得到所述视频流图像数据包括的每一帧视频图像对应的语义单元层数据、背景层数据和语义增强层数据，所述语义增强层数据用于对语义单元层数据针对的前景目标区域进行增强。

具体的，本发明实施例中，所述预先训练的语义分层网络，是以样本原始图像数据和样本目标码率为输入、样本重建图像数据为输出对预设网络进行训练得到的。

为了便于理解，结合图2对本发明实施例中提出的语义分层网络的训练过程进行解释，图2示出了本发明实施例中提出的语义分层网络的训练过程示意图，如图2所示，本发明实施例中，可以端到端地训练视频语义分层网络，其中，编码器的输入包含样本视频流图像数据I和样本目标码率b；编码器的输出部分包含样本背景层数据B、样本语义单元层数据S₁以及样本语义增强层数据E₁。解码器的输入随机选择使用“B+S₁”或“B+S₁₊E₁”进行视频分层解码，得到样本重建数据。在训练过程中，可以使用输入的样本原始图像作为标签，损失函数采用下式：

（1）

（2）

（3）

)-b（4）

具体的，本发明实施例中，使用L1范数作为重建损失如上式（2）所示。从而，本发明实施例中，通过对模型进行训练可以使经过编码器分层编码再讲过解码器重建得到的重建图像与原始图像之间的差异最小化。

本发明实施例中，为了显式地监督语义增强层的信息，使用重建图像前景目标与原始图像前景目标计算残差后使用L2范数作为残差损失，如上述（3）所示。从而，本发明实施例中，通过对模型进行训练可以使经过编码器分层编码得到的语义增强层可以补充重建图像的前景区域和原始图像的前景区域之间的差异。

本发明实施例中，为了以目标码率为基准对重建图像的码率进行控制，在损失函数中添加输出层L1范数，增加语义单元层和语义增强层的稀疏性，如上式（4）所示。从而，本发明实施例中，通过对模型进行训练可以使编码分层编码得到的语义单元层和语义增强层叠加之后得到的图像数据的码率贴近用户设置的目标码率。

综合上式（2）~（4）可以得到预设网络在模型训练过程中的损失函数如上式（1）所示。

本发明实施例中，对预设网络进行端到端训练后可以得到语义分层网络，所述语义分层网络包括：编码器和解码器，将编码器配置到编码端，以对视频流图像数据进行分层视频编码。另外将解码器配置到解码端，以对接收到的分层数据进行重建。

本发明实施例中，编码器中还设置有码率早停单元，以对视频分层编码进行码率控制，具体的，本发明实施例中，图3示出了本发明实施例中编码器的语义分层编码神经网络结构示意图，其中，菱形表示码率早停单元，具体的，可以使用门控单元作为码率早停单元，从而编码器可以基于码率早停单元根据所述目标码率和当前特征层判断是否跳过下一个卷积模块，以对所述视频流图像数据进行分层编码。

S103，将所述语义单元层数据、背景层数据、和语义增强层数据基于熵编码传输至解码端。

具体的，所述解码端用于接收所述语义单元层数据、背景层数据和语义增强层数据，并基于预先训练的语义分层网络的解码器对所述语义单元层数据和背景层数据进行重建、或者基于预先训练的语义分层网络的解码器对所述语义单元层、背景层、和语义增强层进行重建，得到所述视频流图像数据。

熵编码是一种无损数据压缩算法，用于将数据转换为较短的二进制编码。其利用数据的统计特性，将出现频率较高的符号用较短的编码表示，而将出现频率较低的符号用较长的编码表示，以达到对数据进行有效压缩的目的。

熵编码的基本思想是根据数据的概率分布来构建最优编码表，使得出现概率较高的符号使用较短的编码，出现概率较低的符号使用较长的编码。常用的熵编码算法有霍夫曼编码和算术编码。本发明实施例中，可以选择霍夫曼编码算法。

本发明实施例中，背景层数据是针对视频流图像数据中的较为固定的背景进行编码得到的，在解码端可以利用先验知识合成图像数据的背景信息；语义单元层数据是针对视频流图像数据中变化的前景目标进行编码得到的，在前景目标包括多个不同的目标对象的情况下，还可以将不同的目标对象根据语义划分为不同语义单元，在接收端根据语义信息和先验知识恢复视频流图像数据中的前景目标内容；语义增强层数据是在前两层的基础上，通过计算真实视频和合成视频之间前景目标区域的差异得到的，在解码端对通过背景层数据和语义单元层数据合成的视频进行细节补充，解决了可分层编码由于分层的维度导致视频重建存在质量下降的问题。

本发明实施例中，所述解码端可以基于具体的网络状况，选择基于所述语义单元层数据+背景层数据进行视频图像重建、或者基于语义单元层+背景层+语义增强层进行视频图像重建。

从而，本发明实施例提出的基于语义信息的可分层视频编码方法，可以利用深度神经网络技术，提取解码端（接收端）关注的语义单元层和语义增强层，通过语义增强层对语义单元层数据针对的前景目标区域进行增强，保证了接收端关注的前景目标区域的高质量重建。并且，采用本发明实施例提出的基于语义信息的可分层视频编码方法，能够根据用户确定的目标码率控制调整各层的码率，实现有效地码率控制。

参照图4，示出了本发明实施例的一种基于语义信息的可分层视频编码方法的流程示意图，如图4所示，本发明实施例提供的基于语义信息的可分层视频编码方法，应用于编码端，所述方法包括以下步骤：

S201，获取目标码率和视频流图像数据。

S202，将所述目标码率和所述视频流图像数据输入预先训练的语义分层网络的编码器。

所述步骤S201~S202与上述步骤S101~S102类似，本发明实施例在此不再赘述。

S203，判断当前帧视频图像数据对应的背景层数据和上一帧视频图像数据对应的背景层数据的相似度。

本发明实施例中，考虑到视频流图像数据往往是针对某一固定不变的目标区域采集得到的，因此，视频流图像数据中，背景部分的变化较慢。基于此，本发明实施例提出，确定当前帧视频图像数据对应的背景层数据和上一帧视频图像数据对应的背景层数据之间的相似度，具体的确定方法可以参考相关技术中任意可行的相似度计算方法。基于该相似度进一步确定是否实时传输背景层数据至解码端。

S204，在相似度小于预设阈值的情况下，将当前帧视频图像数据对应的背景层数据、语义单元层数据和语义增强层数据基于熵编码传输至解码端；在相似度小于预设阈值的情况下，将当前帧视频图像数据对应的语义单元层数据和语义增强层数据基于熵编码传输至解码端。

本发明实施例中，在背景变换较少时不需要实时发送每一帧视频图像数据对应的背景层数据，能够节省带宽。

所述解码端用于接收所述语义单元层数据、背景层数据和语义增强层数据，并基于预先训练的语义分层网络的解码器对所述语义单元层数据和背景层数据进行重建、或者基于预先训练的语义分层网络的解码器对所述语义单元层、背景层、和语义增强层进行重建，得到所述视频流图像数据。

参照图5，示出了本发明实施例的一种基于语义信息的可分层视频编码方法的流程示意图，如图5所示，本发明实施例提供的基于语义信息的可分层视频编码方法，应用于解码端，所述方法包括以下步骤：

S301，接收编码端基于熵编码传输的语义单元层数据、背景层数据和语义增强层数据，所述语义增强层数据用于对语义单元层数据针对的前景目标区域进行增强。

本发明实施例中，接收端可以基于熵解码将获取到的数据恢复为原始数据。

熵解码是与熵编码相对应的一种数据解压缩算法，用于将经过熵编码压缩后的数据恢复为原始数据。

在熵编码过程利用数据的统计特性对符号进行编码，并且根据符号出现的概率分布构建了相应的编码表。而熵解码根据这个编码表，逆向地将编码转换回原始符号。熵解码的过程一般涉及到解码表的构建和编码的解析两个主要步骤。首先，根据熵编码过程中使用的编码表，构建一个解码表，使得编码与原始符号之间能够一一映射。然后，通过读取编码，从解码表中找到对应的原始符号，并将其输出，直到所有编码都被处理完毕，即完成了数据的解压缩。常见的熵编码算法如霍夫曼编码和算术编码都有相应的熵解码算法。熵解码能够准确地还原被熵编码压缩的数据，使其恢复到原始的形式，从而实现无损的数据压缩和解压缩。

S302，基于预先训练的语义分层网络的解码器对所述语义单元层数据和背景层数据进行重建，得到所述视频流图像数据，或者

基于预先训练的语义分层网络的解码器对所述语义单元层数据、背景层数据、和语义增强层数据进行重建，得到所述视频流图像数据。

本发明实施例中，所述解码端可以对当前网络质量进行判断，在当前网络质量较差的情况下，基于预先训练的语义分层网络的解码器对所述语义单元层数据和背景层数据进行重建，得到所述视频流图像数据，实现更低码率的视频重建。在当前网络质量较好的情况下，基于预先训练的语义分层网络的解码器对所述语义单元层数据、背景层数据、和语义增强层数据进行重建，得到所述视频流图像数据，其中，通过语义增强层对语义单元层数据针对的前景目标区域进行增强，可以保证解码端（接收端）关注的前景目标区域的高质量重建。

具体的，本发明实施例中，解码端在接收到的来自编码端的当前帧视频分层编码数据中不包括背景层数据的情况下，可以采用上一帧视频分层编码数据中的背景层数据进行视频重建。

具体的，本发明实施例中，所述预先训练的语义分层网络，是以样本原始图像数据和样本目标码率为输入、样本重建图像数据为输出对预设网络进行训练得到的；

在所述预设网络的训练过程中，损失函数采用下式：

；

)-b；

为了便于理解，以下结合图6基于编码端和解码端的交互流程对本发明实施例提出的基于语义信息的可分层视频编码方法进行进一步解释，图6示出了本发明实施例提出的基于语义信息的可分层视频编码方法的交互流程示意图。如图6所示，所述方法包括：

S1，编码端获取视频流图像数据中包括的视频帧数据和用户输入的目标码率。

S2，编码端基于视频帧数据和目标码率进行语义分层编码。

S3，编码端判断背景层数据的相似度是否小于相似度预设阈值。

S4，在小于的情况下，编码端对语义单元层数据、背景层数据和语义增强层数据均使用熵编码传输至编码端，在不小于的情况下，编码端仅对语义单元层数据、和语义增强层数据使用熵编码传输至编码端。

S5，解码端判断当前网络质量是否符合预设要求。

S6，在符合的情况下，解码端基于背景层数据+语义单元层数据+语义增强层数据进行视频重建；在不符合的情况下，解码端基于背景层数据+语义单元层数据进行视频重建。

基于同一发明构思，本发明实施例，提供了一种基于语义信息的可分层视频编码装置，参考图7，图7是本发明实施例提供的基于语义信息的可分层视频编码装置的示意图，所述装置应用于编码端，所述装置包括：

获取模块701，用于获取目标码率和视频流图像数据；

输入模块702，用于将所述目标码率和所述视频流图像数据输入预先训练的语义分层网络的编码器，所述编码器基于所述目标码率对所述视频流图像数据进行分层编码，得到所述视频流图像数据包括的每一帧视频图像对应的语义单元层数据、背景层数据和语义增强层数据，所述语义增强层数据用于对语义单元层数据针对的前景目标区域进行增强；

传输模块703，用于将所述语义单元层数据、背景层数据、和语义增强层数据基于熵编码传输至解码端；所述解码端用于接收所述语义单元层数据、背景层数据和语义增强层数据，并基于预先训练的语义分层网络的解码器对所述语义单元层数据和背景层数据进行重建、或者基于预先训练的语义分层网络的解码器对所述语义单元层、背景层、和语义增强层进行重建，得到所述视频流图像数据。

可选地，所述装置还包括：

所述传输模块702，具体用于：

；

；/>

；

)-b；

基于同一发明构思，本发明实施例，提供了一种基于语义信息的可分层视频编码装置，参考图8，图8是本发明实施例提供的基于语义信息的可分层视频编码装置的示意图，所述装置应用于解码端，所述装置包括：

接收模块801，用于接收编码端基于熵编码传输的语义单元层数据、背景层数据和语义增强层数据，所述语义增强层数据用于对语义单元层数据针对的前景目标区域进行增强；

重建模块802，用于基于预先训练的语义分层网络的解码器对所述语义单元层数据和背景层数据进行重建，得到所述视频流图像数据，或者

；

；/>

)-b；

基于同一发明构思，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例所述的基于语义信息的可分层视频编码方法的步骤。

基于同一发明构思，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现如本发明实施例所述的基于语义信息的可分层视频编码方法的步骤。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程基于语义信息的可分层视频编码方法终端设备的处理器以产生一个机器，使得通过计算机或其他可编程基于语义信息的可分层视频编码方法终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程基于语义信息的可分层视频编码方法终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程基于语义信息的可分层视频编码方法终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种基于语义信息的可分层视频编码方法、装置及产品，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于语义信息的可分层视频编码方法，其特征在于，应用于编码端，所述方法包括：

获取目标码率和视频流图像数据；

将所述语义单元层数据、背景层数据、和语义增强层数据基于熵编码传输至解码端；所述解码端用于接收所述语义单元层数据、背景层数据和语义增强层数据，并基于预先训练的语义分层网络的解码器对所述语义单元层数据和背景层数据进行重建、或者基于预先训练的语义分层网络的解码器对所述语义单元层、背景层、和语义增强层进行重建，得到所述视频流图像数据；

所述预先训练的语义分层网络，是以样本原始图像数据和样本目标码率为输入、样本重建图像数据为输出对预设网络进行训练得到的；

2.根据权利要求1所述的基于语义信息的可分层视频编码方法，其特征在于，所述方法还包括：

在所述相似度小于预设阈值的情况下，将当前帧视频图像数据对应的背景层数据、语义单元层数据和语义增强层数据基于熵编码传输至解码端；

3.根据权利要求2所述的基于语义信息的可分层视频编码方法，其特征在于，在所述预设网络的训练过程中，损失函数采用下式：

；

)-b；

其中，表示输入编码器的样本原始图像数据，/>表示解码器输出的样本重建图像数据；表示输入编码器的样本原始图像数据的前景目标区域，/>表示解码器输出的样本重建图像数据的前景目标区域，/>表示编码器输出的样本语义增强层数据，/>表示编码器输出的语义单元层数据，/>分别表示语义单元层数据和语义增强层数据所占权重，b表示样本目标码率。

4.根据权利要求1所述的基于语义信息的可分层视频编码方法，其特征在于，所述编码器中包括码率早停单元，所述编码器基于所述目标码率对所述视频流图像数据进行分层编码，包括：

5.一种基于语义信息的可分层视频解码方法，其特征在于，应用于解码端，所述方法包括：

其中，所述语义单元层数据、背景层数据和语义增强层数据是编码器采用上述权利要求1-4任一项所述的基于语义信息的可分层视频编码方法编码并传输至解码端的。

6.一种基于语义信息的可分层视频编码装置，其特征在于，应用于编码端，所述装置包括：

获取模块，用于获取目标码率和视频流图像数据；

传输模块，用于将所述语义单元层数据、背景层数据、和语义增强层数据基于熵编码传输至解码端；所述解码端用于接收所述语义单元层数据、背景层数据和语义增强层数据，并基于预先训练的语义分层网络的解码器对所述语义单元层数据和背景层数据进行重建、或者基于预先训练的语义分层网络的解码器对所述语义单元层、背景层、和语义增强层进行重建，得到所述视频流图像数据；

7.一种基于语义信息的可分层视频解码装置，其特征在于，应用于解码端，所述装置包括：

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-4任一项所述的基于语义信息的可分层视频编码方法或者权利要求5所述的基于语义信息的可分层视频解码方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-4任一项所述的基于语义信息的可分层视频编码方法或者权利要求5所述的基于语义信息的可分层视频解码方法的步骤。