CN117857842B

CN117857842B - 直播场景中的画质处理方法及电子设备

Info

Publication number: CN117857842B
Application number: CN202410258217.6A
Authority: CN
Inventors: 刘佳慧; 邓思斌; 陈颖
Original assignee: Taobao China Software Co Ltd
Current assignee: Taobao China Software Co Ltd
Priority date: 2024-03-07
Filing date: 2024-03-07
Publication date: 2024-05-28
Anticipated expiration: 2044-03-07
Also published as: CN117857842A

Abstract

本申请实施例公开了直播场景中的画质处理方法及电子设备，所述方法包括：接收推流侧提供的直播视频流；利用画质处理模型对所述直播视频流中的视频帧进行实时的画质增强处理；其中，所述画质处理模型是在残差深度网络RDN基础上，对模型网络结构进行优化处理后生成的，所述优化处理包括：在RDN网络的浅层特征提取部分，在卷积的过程中进行下采样处理；在完成画质处理后，对所述直播视频流进行转码处理，以便向直播视频的观看端进行推流。通过本申请实施例，能够在直播场景中实现更实时的画质处理。

Description

直播场景中的画质处理方法及电子设备

技术领域

本申请涉及画质处理技术领域，特别是涉及直播场景中的画质处理方法及电子设备。

背景技术

在直播行业蓬勃发展的今日，直播已经成为了人们购物、娱乐的主要方式之一。作为一种受众庞大的信息传播载体，画质问题一直是一个困扰用户的问题。各个直播间的开播环境、直播内容、处理方式都存在着较大的差异，导致直播画面质量参差不齐。影响直播间观感的因素有很多，包括了编码导致的失真噪声、拍摄环境和拍摄设备导致的模糊昏暗、处理链路太长导致的模糊、转播导致的块效应、滤镜导致的虚边，等等。

现有技术中，存在一些图像画质增强、视频画质增强算法，理论上可以提升直播画面清晰度，但是，这些算法没有考虑到直播应用场景中对时效性的高要求，也就是说，对于在直播场景中的商业落地而言，这些算法计算量过大且需要消耗大量的显存资源，无法满足直播转码实时处理的要求且成本高。

因此，如何在直播场景中进行更实时的画质处理，成为需要本领域技术人员解决的技术问题。

发明内容

本申请提供了直播场景中的画质处理方法及电子设备，能够在直播场景中进行更实时的画质处理。

本申请提供了如下方案：

一种直播场景中的画质处理方法，包括：

接收推流侧提供的直播视频流；

利用画质处理模型对所述直播视频流中的视频帧进行实时的画质处理；其中，所述画质处理模型是在残差深度网络RDN基础上，对模型网络结构进行优化处理后生成的，所述优化处理包括：在RDN网络的浅层特征提取部分，在卷积的过程中进行下采样处理；

在完成画质处理后，对所述直播视频流进行转码处理，以便向直播视频的观看端进行推流。

其中，所述对模型网络结构进行的优化处理还包括：在完成深层特征提取后，通过增加反卷积处理部分实现上采样，以使得输出分辨率与输入分辨率相同，并使得所述画质处理模型在处理过程保留输入视频帧的更多细节特征信息。

其中，所述对模型网络结构进行的优化处理还包括：将所述RDN网络中用于进行超分处理的结构删除。

其中，还包括：

预先使用成对的低画质图像与高画质图像对所述画质处理模型进行训练；

其中，对所述画质处理模型进行训练的过程中包括多个训练阶段，以使得所述画质处理模型在所述多个训练阶段中逐步获得去除压缩失真的能力、细节特征恢复能力、去除模糊的能力以及细节特征增强能力。

其中，在训练所述画质处理模型的去除压缩失真能力时，收集真实的低画质图像，并利用去除压缩失真相关的专用模型对所述低画质图像进行处理，得到高画质图像，以此获得成对的低画质图像与高画质图像；

将所述真实的低画质图像作为所述画质处理模型的输入图像，并以所述专用模型对应生成的高画质图像作为训练目标，以使得所述画质处理模型学习到所述专用模型的去除压缩失真的能力。

其中，还包括：

收集真实的高画质图像，并通过对真实的高画质图像进行恒定速率因子CRF的编码处理，以获得对应的低画质图像，将此方式获得的成对的低画质图像与高画质图像也加入到训练数据中，以监督所述画质处理模型获得更真实自然的学习结果。

其中，在训练所述画质处理模型的细节特征恢复能力时，收集覆盖多种真实的直播场景内容的高画质图像，并通过对真实的高画质图像进行CRF编码处理，以获得对应的低画质图像，并利用以此获得的成对的低画质图像与高画质图像对所述画质处理模型进行训练，以训练所述画质处理模型的细节恢复能力；

其中，所使用的损失函数中包括感知损失分量、图像损失分量以及对抗损失分量。

其中，在训练所述画质处理模型的去除噪声/模糊的能力以及细节特征增强能力时，通过引入教师模型，并将教师模型对输入图像的输出结果作为训练目标进行训练，所述教师模型为具有综合性画质增强能力的模型，以使得所述画质处理模型学习到所述教师模型的综合性画质增强能力，所述综合性画质增强能力包括去噪声/模糊以及细节生成能力。

其中，在训练所述画质处理模型的去除噪声/模糊的能力以及细节特征增强能力时，收集真实的高画质图像，对高画质图像进行退化处理得到至少两种不同退化程度的低画质图像，并通过第一子阶段以及第二子阶段的训练，使得所述画质处理模型分别学习所述教师模型在处理低画质图像中质量相对较低的图像时的去噪、去模糊能力，以及在处理低画质图像中质量相对较高的图像时的细节生成能力。

其中，在第一子阶段，将其中退化程度较高的低画质图像作为所述画质处理模型以及所述教师模型的输入，并将所述教师模型的输出作为所述画质处理模型的训练目标，以使得所述画质处理模型学习到所述教师模型在处理低画质中质量相对较低的图像时的去噪、去模糊能力。

其中，在第二子阶段，将其中退化程度较低的低画质图像作为所述画质处理模型的输入，将所述真实的高画质图像作为所述教师模型的输入，并将所述教师模型对所述高画质图像进行处理后输出的更高画质的图像作为所述画质处理模型的训练目标，以使得所述画质处理模型学习到所述教师模型在处理低画质图像中质量相对较高的图像时的细节生成能力。

其中，在所述第二子阶段，采用的损失函数中包括边缘损失分量，以使得所述画质处理模型在处理低画质图像中质量相对较高的图像时，输出图像在边缘特征上与训练目标近似。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一项所述的方法的步骤。

一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行前述任一项所述的方法的步骤。

一种计算机程序产品，包括计算机程序/计算机可执行指令，所述计算机程序/计算机可执行指令被电子设备中的处理器执行时实现前述任一项所述方法的步骤。

根据本申请提供的具体实施例，本申请公开了以下技术效果：

通过本申请实施例，为了能够在直播场景中，对直播画面进行实时的画质处理，提供了在云端进行转码之前进行画质处理的方案，并且，通过对RDN网络的网络结构进行优化，得到了画质处理模型，这种优化包括在RDN网络的浅层特征提取部分，采用在卷积的过程中进行下采样的方式，以减少RDN网络的深层特征提取部分所需处理的数据量。通过这种方式，由于浅层特征提取部分进行了下采样处理，因此，起到了降低分辨率的作用，从而大幅降低了深层特征提取部分（也是计算量最大的部分）的计算量，进而提升效率，以满足直播场景中对实时性的要求。

在优选的方式下，对模型的网络结构的优化还可以包括：在深度特征提取之后，还通过增加反卷积处理从而实现上采样，以使得输出分辨率与输入分辨率相同，同时，通过这种先进行下采样再进行上采样的处理方式，还可以迫使画质处理模型能够更多地保留图像中的细节特征，从而满足直播场景中对画面真实度、自然度的要求。

另外，在可选的方式下，还可以将RDN系统中关于超分处理的部分进行删除，从而可以降低网络结构的复杂度，有利于进一步提升处理效率。

再者，本申请实施例还提供了对上述进行了网络结构优化之后的画质处理模型的训练方案，具体的，可以采用分阶段的训练方式，以使得画质处理模型在多个训练阶段中逐步获得去除压缩失真的能力、细节特征恢复能力、去除噪声/模糊的能力以及细节特征增强能力。其中，可以从教师模型中学习到去除模糊的能力以及细节特征增强能力，并且，可以进一步分阶段训练，第一个子阶段可以用于学习教师模型在针对画质非常低的低画质图像时，所具有的去噪声、去模糊等方面的能力；第二子阶段则可以用于学习教师模型在针对画质不是非常低的低画质图像时，所具有的细节生成等方面的能力。通过这种方式，使得画质处理模型可以逐步学习到教师模型的能力，并且，还可以实现本申请实施例中的画质处理模型针对多种不同画质的直播内容的自适应处理能力，以更好地适应直播间画面内容繁复多样且画质分布广泛的特质。

另外，在训练过程中用到的损失函数，除了可以包括感知损失分量、图像损失分量以及对抗损失分量之外，还可以包括边缘损失分量，以使得所述画质处理模型在处理低画质图像中质量相对较高的图像时，输出图像在边缘特征上与训练目标近似。这样，可以使得画质处理模型在处理画质不是非常低的图像时，能够在边缘增强等方面具有更好的表现。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是标准RDN网络结构的示意图；

图2是本申请实施例提供的画质处理模型的网络结构的示意图；

图3是本申请实施例提供的系统架构的示意图；

图4是本申请实施例提供的方法的流程图；

图5是本申请实施例提供的电子设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

在本申请实施例中，为了能够在直播场景下进行实时的画质处理，提供了相应的解决方案，在该方案中，可以采用RDN（Residual Dense Network，残差深度网络）网络的原理进行画质处理。其中，RDN是计算机视觉中的一个神经网络架构，特别是在图像超分辨率任务中有所应用，如图1所述，基础的RDN由浅层特征提取11、深层特征提取12以及超分13等部分组成。其中，深层特征提取部分包括多个残差稠密块（RDB）组成，这些块结合了ResNet（Residual Network，残差网络，是一种深度卷积神经网络）和DenseNet（稠密连接网络，也是一种深度卷积神经网络，通过在网络中引入密集连接（Dense Connection）来增强特征重用和梯度流动，从而提高模型的性能和泛化能力）的结构特性，以提高性能。每个RDB块包括密集连接的层和一个卷积层，用于提取不同层次的局部和全局特征。之后，RDN还包括一个用于上采样的网络，以生成最终的超分辨率结果。也即，RDN网络输出的图像的分辨率会高于原始输入图像。

上述RDN网络理论上可以通过被训练而获得画质处理的能力，但是，这种RDN网络并不能直接应用于直播场景中。这是因为，RDN网络由于需要进行浅层特征提取、深层特征提取、超分处理等，尤其是其中的深层特征提取、超分部分，计算量通常会非常大，因此，对于直播场景而言，存在计算量过大且需要消耗大量的显存资源的问题，无法满足直播转码实时处理的要求且成本高。另外，普通的RDN网络也容易导致画面丢失细节、不自然，影响用户的观看体验。

针对上述情况，本申请实施例可以在RDN网络的基础上，依据直播场景特质，对RDN的网络结构进行优化，生成可以用于直播场景的画质处理模型。例如，具体在对网络结构进行优化时，如图2所示，可以在RDN网络的浅层特征提取部分21，采用在卷积的过程中进行下采样的方式，以减少RDN网络的深层特征提取部分22所需处理的数据量，提升处理效率，达到直播场景中对实时性的要求；在可选的方式下，还可以在完成深层特征提取后，通过增加反卷积部分23实现上采样，以使得输出分辨率与输入分辨率相同；并且，通过这种先下采样，之后又进行上采样的方式，还可以迫使画质处理模型在处理过程中保留关于输入视频帧的更多细节特征信息，从而使得输出的画面更真实自然，减少画面细节丢失等情况。另外，在可选的方式下，还可以将RDN网络中关于超分处理的部分删除，以进一步降低网络的复杂度，提升效率。

在确定了画质处理模型的网络结构后，还可以对模型进行训练，以使得画质处理模型进一步获得具体的画质增强能力。其中，由于相对于一些综合性的画质处理模型而言，本申请实施例提供的画质处理模型属于一种相对比较轻量化的模型，相应的，其学习能力可能也会比较有限，因此，在具体对模型进行训练时，可以采用分阶段的训练方式，以使得模型能够逐步获得多种不同方面的画质增强能力。其中，在一种具体的实现方式下，可以通过多个训练阶段，使得模型能够逐步获得去除压缩失真的能力、细节特征恢复能力、去除模糊的能力以及细节特征增强能力。关于具体的训练过程，后文中会有详细介绍。

从系统架构角度而言，画质处理技术可在推流测（也即主播的终端设备侧）和转码侧（云端或者直播系统的服务端）使用，目标都是提升直播视频的画质。其中推流侧的处理目标是增强细节以抵消后续链路的损失，但是推流侧受算力限制大，难以部署增强效果好的高复杂度模型，难以满足大幅提升直播画质的要求。而转码侧的画质处理目标可以是优化视频画质、增强细节以抵消转码损失等问题（当然，也可以用于进行其他方面的画质处理，例如，为了满足一些观众端用户设备性能比较差的需求，可能还需要进行降低画质的处理，等等），借助于云端算力，转码侧可以部署较大算力的模型以获得更显著的处理效果。因此，本申请实施例提供的画质处理模型可以部署在云端转码侧，该算法模型将作为转码（云端的直播视频流编码）的前处理，帮助消除或减少原直播画面中的瑕疵，提升画面质量（或者在部分情况下降低画面质量）。也就是说，参见图3，在直播过程中，主播端通过相机等设备采集直播画面，采集的过程中可以进行前处理、美颜等处理，另外还可以在进行编码后推流到云端，云端在进行转码之前，可以首先进行画质处理，完成该处理之后再进行转码，并推流到观看者用户（观众侧）的客户端，在客户端则可以播放出具体的直播画面。

下面对本申请实施例提供的具体实现方案进行详细介绍。

首先，本申请实施例提供了一种直播场景中的画质处理方法，参见图4，该方法可以包括：

S401：接收推流侧提供的直播视频流。

其中，推流侧具体就可以是主播端等，也即，在通过相机设备拍摄到直播画面后，可以在主播端进行编码等处理后，上传到云端，相应的，云端便可以接收到推流侧提供的直播视频流。

S402：利用画质处理模型对所述直播视频流中的视频帧进行实时的画质增强处理；其中，所述画质处理模型是在残差深度网络RDN基础上，对模型网络结构进行优化处理后生成的，所述优化处理包括：在RDN网络的浅层特征提取部分，在卷积的过程中进行下采样处理。

具体实现时，如前文所述，可以是在直播系统的云端转码侧提供画质处理功能。因此，可以是在主播侧的推流端将直播视频流推流到云端之后，在云端进行转码之前，可以首先利用画质处理模型进行画质处理。其中，具体实现时，由于直播视频流中会包括多个视频帧，因此，在具体实现时，可以以视频帧的单位，逐帧的输入到画质处理模型中进行画质处理。这种处理可以是在直播的过程中实时进行。

S403：在完成画质处理后，对所述直播视频流进行转码处理，以便向直播视频的观看端进行推流。

在完成画质处理后，就可以进行转码处理，也即，在云端的直播视频流编码处理，之后，再向观看者用户的客户端进行推流。由于在转码之前进行了画质处理，因此，可以使得观看者用户客户端展示出画质处理后的直播画面。

具体的，为了使得画质处理模型能够在直播场景下满足实时性等要求，如前文所述，首先可以对现有的RDN网络的网络结构进行优化。如图2所示，在本申请实施例提供的画质处理模型中，RDN的浅层特征提取部分，不再是直接进行卷积计算，而是可以在卷积计算的过程中进行下采样处理。也就是说，普通的卷积计算需要对输入图像进行逐像素的卷积计算处理，而在卷积计算的过程中进行下采样也即意味着，可以仅对部分像素进行卷积处理，例如，每做一次卷积处理之后可以跳过几个像素，然后再进行下一次卷积处理，等等。在一个具体应用的例子中，可以进行两次的卷积+下采样，每次以步长为2进行下采样，这样，经过两次卷积+下采样之后，可以使得分辨率变为原始输入图像的1/4。通过这种方式，可以使得浅层特征提取处理之后的分辨率降低，整体的信息量变小。后续的深层特征提取部分的结构可以保持不变，但是，由于在浅层特征提取部分降低了分辨率，因此，使得深层特征提取部分需要处理的数据量以及计算量也就随之减小，从而可以有效地提升深层特征提取的处理效率。

其中，关于深层特征提取部分，经过连续的D个RDB（Residual Dense Block，残差密集连接模块）来进一步提升特征信息，将每个RDB的输出都合并聚合在一起之后，经过一个内核大小（Kernel Size）为1×1的卷积层来实现特征蒸馏，输出蒸馏特征。这样做具有两个优势，首先合并操作可以保留更多的特征信息，其次1×1卷积操作可以大幅降低参数量。更进一步地，蒸馏特征/>经过3×3卷积并与第一层卷积输出的浅层特征/>相加之后得到特征/>。

在可选的方式下，在深层特征提取之后，还可以通过增加反卷积处理部分，实现先上采样处理，从而使得输出画面的分辨率可以与输入图像的分辨率相同（当然，如果画质处理的目的是降低画质，也可以不需要进行该上采样处理）。通过这种方式，除了可以通过下采样处理降低分辨率，以降低深层特征提取部分的计算量，还可以通过先下采样再上采样的方式，强迫画质处理模型保留关于原始输入图像的更多的细节特征信息（因为在下采样以及上采样的过程中，模型需要更多的关注图像中哪些细节是更重要的，并将其保留下来，以确保输出图像与输入图像在画面细节上的相似度），从而还可以起到减少细节丢失、使得生成的画面更真实自然的作用。

这里需要说明的是，第一，由于本申请实施例的场景中，不需要生成更高分辨率的图像，因此，原始的RDN网络中关于超分处理的结构对于本申请实施例的直播场景而言属于冗余的功能，因此，还可以将这部分结构删除，以此进一步提升画质处理模型的处理效率，减少计算量。第二，在通过反卷积进行上采样的过程中，反卷积的过程中，是在输入一个像素值的情况下，反卷积操作会输出多个像素值，例如，卷积过程使用的3×3的模板，则反卷积的过程会在输入一个像素值时，输出3×3=9个像素值。此时，如果直接进行逐个像素的反卷积计算，则会导致输出分辨率无法与原始分辨率相等，因此，在反卷积过程中还可以进行控制，包括控制对哪些像素进行反卷积，跳过哪些像素，是否将像素进行反卷积后的结果叠加等等，之后，还可以通过补边等操作，控制整体的输出分辨率与原始输入的分辨率相同。其中，在控制对哪些像素进行反卷积，跳过哪些像素的过程中，就会涉及到对图像细节特征的保留，以此达到保留关于输入视频帧的更多细节特征信息的目的。

除了上述对RDN网络结构的优化之外，由于原始的RDN网络中通常还包括超分处理部分，这部分的作用主要是提升分辨率，也即，使得输出图像的分辨率高于输入图像，而本申请的场景中并不需要该功能，因此，对于本申请实施例而言，网络中关于超分处理的部分属于冗余的功能，为了进一步提升网络的处理效率，可以将这部分删除。

在完成对模型的网络结构的优化后，如果需要通过画质处理模型起到画质增强的作用，则还可以对该画质处理模型进行训练，以使得其获得在画质增强方面的能力。具体在对该画质处理模型进行训练时，由于训练的目的是使得画质处理模型能够提升图像的画质，因此，可以使用成对的低画质图像与高画质图像对所述画质处理模型进行训练。其中，这里的低画质图像与高画质图像，可以是按照按照多种维度上的画质评价指标分别对具体的图像样本进行评分，再将多个维度上的得分进行汇总得到图像样本的画质评价总分，然后通过与某预先设定的阈值进行对比，确定出是否属于低画质图像或者高画质图像，等等。当然，在具体实现时，为了使得画质处理模型能够适应具体应用场景中存在的多种不同画质的直播视频，还可以对训练样本进行更细粒度的划分，例如，同样是低画质图像，还可以细分为画质相对较高的低画质图像，以及画质相对较低的低画质图像，等等。另外，这里的低画质图像以及高画质图像，可以通过从真实数据中收集的方式获得，还可以通过多种方式进行构造，例如，对于某一对低画质图像与高画质图像而言，可以是从真实数据中收集到高画质图像，然后利用模拟编码压缩失真或者画质退化算法等，构造出对应的低画质图像，等等，对此，后文会有详细介绍。其中，从真实数据中收集到的低画质图像或者高画质图像，可以来自于真实的视频数据，例如，从真实的视频中抽取出多个视频帧，每个视频帧可以作为一个图像样本，等等。

另外，由于本申请实施例中的画质处理模型是在原始的RDN网络基础上进行了一些优化，以满足直播场景中对实时性以及画面真实性等方面的要求，因此，整个模型相对于以离线运行为主的画质处理模型而言，属于比较轻量化的模型，也即，网络复杂度不高，计算量也相对较低，等等。但是，这同时也意味着，本申请实施例中的画质处理模型的学习能力可能也会受到限制。而对于画质增强这一任务而言，却通常是很复杂的，需要从多方面进行优化，例如，需要去除图像中的压缩失真、恢复图像中的细节特征、去除模糊、去除噪声，甚至对于某些图像可能还需要额外进行一些细节特征的生成（例如，某图像中包含人体的头发区域，但是画质较低，头发区域呈现出一个“平面区域”，也即无法区分出具体的头发线条，此时，可以通过细节生成的能力，为该图像生成头发线条类的细节特征，等等），等等。为了能够使得学习能力有限的画质处理模型获得上述多方面的能力，在本申请实施例中，对所述画质处理模型进行训练的过程可以包括多个训练阶段，以使得所述画质处理模型在所述多个训练阶段中逐步获得去除压缩失真的能力、细节特征恢复能力、去除模糊的能力以及细节特征生成能力。

具体的，在第一训练阶段，可以训练画质处理模型最基础的画质提升能力，例如，去除画面杂质(噪声、压缩失真)的能力。在这一阶段，首先可以收集真实的低画质图像，然后，可以利用去除压缩失真相关的专用模型对所述低画质图像进行处理，得到高画质图像，以此获得成对的低画质图像与高画质图像。之后，可以将所述真实的低画质图像作为所述画质处理模型的输入图像，并以所述专用模型对应生成的高画质图像作为训练目标，以使得所述画质处理模型学习到所述专用模型的去除压缩失真的能力。

其中，所谓的“去除压缩失真相关的专用模型”，具体可以是现有的算法模型，该算法模型不需要考虑实时性等要求，另外，也不需要考虑在细节恢复、细节生成等方面的能力，而是专注于去除由于压缩带来的失真，例如，某些线条部分出现的锯齿现象，等等，因此，这类算法模型在去压缩失真方面的能力会比较突出。本申请实施例中，首先就可以使得画质处理模型从这种算法模型中学习到去压缩失真的能力。

当然，在上述第一训练阶段，如果仅使用前述数据对（也即，真实的低画质图像与去压缩失真模型生成的高画质图像组成的数据对）来训练模型，可能会导致本申请实施例中的画质处理模型学习到不够真实自然的效果。为了避免这个问题，还可以引入真实的高画质数据（也作为训练目标的一部分），同时，可以使用定CRF（Constant Rate Factor，恒定速率因子，是一种编码模式，可以向上或向下调整文件数据速率以达到选定的质量级别，而不是特定的数据速率）对收集得到的高画质图像进行编码，得到对应的低画质图像，以此组成数据对。之后，可以将此方式获得的成对的低画质图像与高画质图像也加入到训练数据中，以监督画质处理模型获得更真实自然的学习结果。

也就是说，在优选的实现方式下，在上述第一训练阶段，可以分别收集低画质视频与高画质视频，组成两组成对的数据，训练模型的去压缩失真能力。其中，在该第一训练阶段，可以要求画质处理模型的输出在像素域上与收集到的或构造出的高画质图像相近似，因此，所使用的损失函数可以为机器视觉领域的经典损失函数——MSE（Mean SquareError，均方误差）损失函数，当然，也可以使用其他的损失函数，只要能够表达两幅图像之间在像素级别上的相似性即可。

在画质处理模型获得了基础的去压缩失真能力后，可以进入第二训练阶段，在该第二训练阶段，主要训练模型的细节恢复能力（第一训练阶段主要训练模型的“减法”能力，也即，将压缩过程中引入的失真等去除，而第二训练结果主要训练模型的“加法”能力，也即，将图像中丢失的细节特征恢复出来，例如，图像中的某些线条在压缩过程中变得断断续续，把线条补回的过程就可以称为细节恢复）。在这一步中，需要保证所使用的训练目标数据来自于真实场景，以保证模型所学习的细节是足够自然的。因此，可以收集覆盖多种真实的直播场景内容的高画质图像，并通过对真实的高画质图像进行CRF编码处理，以获得对应的低画质图像，并利用以此获得的成对的低画质图像与高画质图像对所述画质处理模型进行训练，以训练所述画质处理模型的细节恢复能力。

也即，在该第二训练阶段，以前述构造出的低画质图像作为画质处理模型的输入，以真实的高画质图像作为训练目标。其中，在所述第二训练阶段中，所使用的损失函数中可以包括感知损失分量、图像损失分量以及对抗损失分量。例如，具体可以表达为：

其中，为感知损失分量，用于计算画质处理模型的输出与训练目标之间的感知损失，以使得输出图像的纹理丰富度在感知上与训练目标近似。具体的计算公式可以为：

其中，代表本申请实施例中使用的画质处理模型，也即生成器模型，C代表提取输入图像在VGG（一种经典的深层卷积网络结构）网络中特定层特征的操作，/>代表画质处理模型的输入图像，/>代表训练目标图像。

换言之，所谓的感知损失，也就是在特征域上比较两张图像是否相似，纹理看起来是否相似，这种相似与位置无关。比如训练目标图像中有“头发”，生成的图像中也有“头发”，但是位置可能不一样，另外，训练目标图像中的“头发”可能是“直发”，生成的图像中可能是“卷发”，等等，但是，这些都不影响两个图在人眼主观感知上具有相似特征的两个物体这一事实。具体的，可以通过判断本申请实施例中画质处理模型生成的图像与作为训练目标的图像在VGG网络上的表现是否相似，来达到上述目的。

为图像损失分量，用于逐像素计算画质处理模型的输出与训练目标之间的图像损失，以使得输出图像在整体轮廓上与训练目标近似。具体的计算公式可以为：

换言之，图像损失就是要逐像素的对比两个图的差异，保证输出的两个图整体轮廓位置不能乱。

为对抗损失分量用于通过将画质处理模型的输出与判别器进行对抗，以使得输出的画面内容中修复出来的纹理细节足够自然。具体的计算公式可以为：

其中，代表判别器的判别函数。也即，本申请实施例中的画质处理模型可以作为“生成器”模型，另外可以预先训练一个判别器，使得该判别器“见过”很多高画质以及低画质的图像，学习到“高画质”与“低画质”的概念，在这个基础上，利用该判别器对生成器生成的图像进行判别。

其中，分别为各种损失分量的权重。

在完成上述第一训练阶段以及第二训练阶段之后，画质处理模型已经获得了基础的去除压缩失真、细节恢复等能力，而为了更进一步地提升画质处理模型的能力，使得画质处理模型输出的图像有更明显的画质提升，还可以在第三训练阶段，通过引入教师模型，并将教师模型对输入图像的输出结果作为训练目标进行训练。其中，这里所用到的教师模型可以是具有综合性画质增强能力的模型，以使得所述画质处理模型学习到所述教师模型的综合性画质增强能力，所述综合性画质增强能力包括去噪声、去模糊以及细节生成能力。也就是说，该教师模型具有强大的画质增强能力，当然，由于其网络复杂、计算量大，因此，并不适合在直播场景中使用。而本申请实施例中的画质处理模型，则可以从这种教师模型中学习到去噪声、去模糊以及细节生成等方面的能力。

当然，由于本申请实施例中的画质处理模型与教师模型的能力之间存在较大差距，因此，可以逐步学习教师模型的能力。具体的，可以首先学习教师模型在低画质图像上的去噪声、去模糊等能力，然后，再学习教师模型在相对较高画质的图像上的细节生成等能力。

具体的，在该第三训练阶段，首先可以收集真实的高画质图像，之后，由于需要分阶段地学习教师模型对不同画质的图像的增强能力，因此，还可以对高画质图像进行退化处理，以得到至少两种不同退化程度的低画质图像。例如，可以对真实的高画质图像进行二阶段的图像退化和视频压缩处理，以得到多种不同退化程度的低画质图像。其中，退化程度越高，则画质越低，反之，退化程度越低，则画质越高。也即，这种退化处理相对于前述通过定CRF编码构造低画质图像的实现方式而言，可以构造出画质分布更广泛的低画质模型，甚至还可以将低画质模型进一步细分为画质相对较高的低画质图像（画质一般低的图像），画质相对较低的低画质图像（画质非常低的图像），等等。之后，可以通过第一子阶段以及第二子阶段的训练，使得所述画质处理模型分别学习所述教师模型在处理低画质图像中质量相对较低的图像时的去噪、去模糊能力，以及在处理低画质图像中质量相对较高的图像时的细节生成能力。

具体的，在上述第一子阶段，可以将其中退化程度较高的低画质图像（也即，画质非常低的图像）作为所述画质处理模型以及所述教师模型的输入，并将所述教师模型的输出作为所述画质处理模型的训练目标，以使得所述画质处理模型学习到所述教师模型在处理低画质中质量相对较低的图像时的去噪、去模糊能力。

该第一子阶段的训练重点是在像素级别上学习教师模型的去噪声、去模糊能力，为下一阶段的微调提供较好的画面强边缘增强基础，因此，在计算训练损失的时候，不再是与原始的高质量视频帧进行对比，而是与教师模型的输出进行对比。该阶段，使用的损失函数同样可以包括前述感知损失分量、图像损失分量以及对抗损失分量。

在第二子阶段，可以使用教师模型进行微调，进一步提升模型的细节增能力，即学习教师模型在相对较高画质的图像上的增强能力。具体的，可以将前述退化程度较低的低画质图像作为所述画质处理模型的输入，同时，将所述真实的高画质图像作为所述教师模型的输入，并将所述教师模型对所述高画质图像进行处理后输出的更高画质的图像作为所述画质处理模型的训练目标，以使得所述画质处理模型学习到所述教师模型在处理低画质图像中质量相对较高的图像时的细节生成能力。也就是说，教师模型在处理画质相对较高的低画质图像时，由于其中可能不再包含很多噪声、模糊等，因此，主要的增强方式可能不再是去噪声、去模糊，而更多的是在于通过细节生成，来使得输出的图像与输入图像之间产生明显的画质提升。而通过该第二子阶段，则可以使得本申请实施例中的画质处理模型能够学习到教师模型在处理这种画质相对较高的低画质图像时的细节生成能力。

其中，在上述第二子阶段，由于涉及到对画质相对较高的低画质图像的增强，并且主要涉及到细节生成等增强方式，因此，采用的损失函数中除了可以包括前述感知损失分量、图像损失分量以及对抗损失分量之外，还可以包括边缘损失分量，以使得所述画质处理模型在处理低画质图像中质量相对较高的图像时，输出图像在边缘特征上与训练目标近似。也就是说，该阶段用到的损失函数可以为：

其中，为边缘损失分量，/>为该边缘损失的权重。

在一种方式下，的计算公式可以为：

/>

其中，代表一种边缘提取算法（例如，可以是一种图像锐化算法等，这种算法在现有技术中通常是用于对图像进行锐化处理，但是还没有直接把锐化算法的函数应用到损失函数中的先例）。也就是说，在本申请实施例中，要求画质处理模型对图像中的线条区域的重建能力更强，对线条做更强的监督，例如，需要将桌子边缘等线条提取出来，尤其是对于本身画质并不是很低的输入图像而言，如果输入的图像中有丰富的线条，输出的图像中也不能丢失这些线条，甚至还可以实现对线条的生成，等等。为了达到该目的，在本申请实施例中，开创性地将边缘损失加入损失函数计算中，其中的 />函数就是用来提取出来线条的位置，/>或者/>乘积之后，就只留下图像中的线条区域，然后，在线条区域计算像素差异。

需要说明的是，在上述分不同的子阶段从教师模型中学习画质优化能力的方式，由于可以分别学习教师模型在处理画质非常低的低画质图像时的增强能力，以及在处理画质不是非常低的低画质图像时的增强能力，因此，还可以实现本申请实施例中的画质处理模型针对多种不同画质的直播内容的自适应处理能力，以更好地适应直播间画面内容繁复多样且画质分布广泛的特质。例如，在某直播系统中，各个直播间的直播内容大致可以分为两类：“带货”型直播间与内容化直播间。顾名思义，“带货”型直播间以带货卖货为目的，画面中主要包含“带货”主播与商品这两类元素，作为受欢迎程度很高的直播间类型，“带货”型直播间的画质普遍较高；而内容化直播间则包含了多样的直播内容，包括了唱跳、萌宠、生活分享等多种内容，画质分布较广，也即，其中可能某些直播间的画质比较好，某些则比较差，还有的则可能特别差，等等。而在本申请实施例中，由于在对画质处理模型进行训练时，分别训练了在处理各种不同画质的图像时的画质增强能力，因此，可以更好地适应这种画质分布广泛的情况，使得画质处理模型在面对各种不同画质的直播内容时，都可以获得明显的画质增强效果。

需要说明的是，在具体实现时，上述各个训练阶段的顺序可以不是固定不变的，而是可以根据实际需要而进行调整，例如，先训练画质处理模型的细节特征恢复能力，再训练去除压缩失真能力也是可以的，等等。

在完成上述各个训练阶段的训练之后，便可以在直播场景中利用具体的画质处理模型对直播视频流进行画质增强处理。如前文所述，具体可以在云端的转码侧，将该画质增强处理过程作为转码处理的前置环节，也即，在完成画质增强处理之后再进行转码，以及向观看端的推流处理，以使得观看端收到的直播视频流具有更高的画质，提升用户体验。

总之，通过本申请实施例，为了能够在直播场景中，对直播画面进行实时的画质处理，提供了在云端进行转码之前进行画质处理的方案，并且，通过对RDN网络的网络结构进行优化，得到了画质处理模型，这种优化包括在RDN网络的浅层特征提取部分，采用在卷积的过程中进行下采样的方式，以减少RDN网络的深层特征提取部分所需处理的数据量。通过这种方式，由于浅层特征提取部分进行了下采样处理，因此，起到了降低分辨率的作用，从而大幅降低了深层特征提取部分（也是计算量最大的部分）的计算量，进而提升效率，以满足直播场景中对实时性的要求。

再者，本申请实施例还提供了对上述进行了网络结构优化之后的画质处理模型的训练方案，具体的，可以采用分阶段的训练方式，以使得画质处理模型在多个训练阶段中逐步获得去除压缩失真的能力、细节特征恢复能力、去除模糊的能力以及细节特征增强能力。其中，可以从教师模型中学习到去除模糊的能力以及细节特征增强能力，并且，可以进一步分阶段训练，第一个子阶段可以用于学习教师模型在针对画质非常低的低画质图像时，所具有的去噪声、去模糊等方面的能力；第二子阶段则可以用于学习教师模型在针对画质不是非常低的低画质图像时，所具有的细节生成等方面的能力。通过这种方式，使得画质处理模型可以逐步学习到教师模型的能力，并且，还可以实现本申请实施例中的画质处理模型针对多种不同画质的直播内容的自适应处理能力，以更好地适应直播间画面内容繁复多样且画质分布广泛的特质。

需要说明的是，本申请实施例中可能会涉及到对用户数据的使用，在实际应用中，可以在符合所在国的适用法律法规要求的情况下（例如，用户明确同意，对用户切实通知，等），在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。

与前述方法实施例相对应，本申请实施例还提供了一种直播场景中的画质处理装置，该装置可以包括：

直播流接收单元，用于接收推流侧提供的直播视频流；

画质处理单元，用于利用画质处理模型对所述直播视频流中的视频帧进行实时的画质处理；其中，所述画质处理模型是在残差深度网络RDN基础上，对模型网络结构进行优化处理后生成的，所述优化处理包括：在RDN网络的浅层特征提取部分，在卷积的过程中进行下采样处理；

转码处理单元，用于在完成画质处理后，对所述直播视频流进行转码处理，以便向直播视频的观看端进行推流。

另外，所述对模型网络结构进行的优化处理还包括：将所述RDN网络中用于进行超分处理的结构删除。

其中，如果需要通过画质处理模型起到增强画质的作用，则还可以预先使用成对的低画质图像与高画质图像对所述画质处理模型进行训练；其中，对所述画质处理模型进行训练的过程中包括多个训练阶段，以使得所述画质处理模型在所述多个训练阶段中逐步获得去除压缩失真的能力、细节特征恢复能力、去除模糊的能力以及细节特征增强能力。

另外，还可以收集真实的高画质图像，并通过对真实的高画质图像进行恒定速率因子CRF的编码处理，以获得对应的低画质图像，将此方式获得的成对的低画质图像与高画质图像也加入到训练数据中，以监督所述画质处理模型获得更真实自然的学习结果。

在训练所述画质处理模型的细节特征恢复能力时，可以收集覆盖多种真实的直播场景内容的高画质图像，并通过对真实的高画质图像进行CRF编码处理，以获得对应的低画质图像，并利用以此获得的成对的低画质图像与高画质图像对所述画质处理模型进行训练，以训练所述画质处理模型的细节恢复能力；

在训练所述画质处理模型的去除噪声/模糊的能力以及细节特征增强能力时，可以引入教师模型，并将教师模型对输入图像的输出结果作为训练目标进行训练，所述教师模型为具有综合性画质增强能力的模型，以使得所述画质处理模型学习到所述教师模型的综合性画质增强能力，所述综合性画质增强能力包括去噪声、去模糊以及细节生成能力。

具体的，在训练所述画质处理模型的去除噪声/模糊的能力以及细节特征增强能力时，可以收集真实的高画质图像，对高画质图像进行退化处理得到至少两种不同退化程度的低画质图像，并通过第一子阶段以及第二子阶段的训练，使得所述画质处理模型分别学习所述教师模型在处理低画质图像中质量相对较低的图像时的去噪、去模糊能力，以及在处理低画质图像中质量相对较高的图像时的细节生成能力。

在第二子阶段，将其中退化程度较低的低画质图像作为所述画质处理模型的输入，将所述真实的高画质图像作为所述教师模型的输入，并将所述教师模型对所述高画质图像进行处理后输出的更高画质的图像作为所述画质处理模型的训练目标，以使得所述画质处理模型学习到所述教师模型在处理低画质图像中质量相对较高的图像时的细节生成能力。

另外，在所述第二子阶段，采用的损失函数中包括边缘损失分量，以使得所述画质处理模型在处理低画质图像中质量相对较高的图像时，输出图像在边缘特征上与训练目标近似。

另外，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述方法实施例中任一项所述的方法的步骤。

以及一种电子设备，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行前述方法实施例中任一项所述的方法的步骤。

一种计算机程序产品，包括计算机程序/计算机可执行指令，所述计算机程序/计算机可执行指令被电子设备中的处理器执行时实现前述方法实施例所述方法的步骤。

其中，图5示例性的展示出了电子设备的架构，具体可以包括处理器510，视频显示适配器511，磁盘驱动器512，输入/输出接口513，网络接口514，以及存储器520。上述处理器510、视频显示适配器511、磁盘驱动器512、输入/输出接口513、网络接口514，与存储器520之间可以通过通信总线530进行通信连接。

其中，处理器510可以采用通用的CPU（Central Processing Unit，处理器）、微处理器、应用专用集成电路（Application Specific Integrated Circuit，ASIC）、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请所提供的技术方案。

存储器520可以采用ROM（Read Only Memory，只读存储器）、RAM（Random AccessMemory，随机存取存储器）、静态存储设备，动态存储设备等形式实现。存储器520可以存储用于控制电子设备500运行的操作系统521，用于控制电子设备500的低级别操作的基本输入输出系统(BIOS)。另外，还可以存储网页浏览器523，数据存储管理系统524，以及图标字体处理系统525等等。上述图标字体处理系统525就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之，在通过软件或者固件来实现本申请所提供的技术方案时，相关的程序代码保存在存储器520中，并由处理器510来调用执行。

输入/输出接口513用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中（图中未示出），也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

网络接口514用于连接通信模块（图中未示出），以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式（例如USB、网线等）实现通信，也可以通过无线方式（例如移动网络、WIFI、蓝牙等）实现通信。

总线530包括一通路，在设备的各个组件（例如处理器510、视频显示适配器511、磁盘驱动器512、输入/输出接口513、网络接口514，与存储器520）之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器510、视频显示适配器511、磁盘驱动器512、输入/输出接口513、网络接口514，存储器520，总线530等，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本申请方案所必需的组件，而不必包含图中所示的全部组件。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本申请所提供的直播场景中的画质处理方法及电子设备，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种直播场景中的画质处理方法，其特征在于，包括：

接收推流侧提供的直播视频流；

在完成画质处理后，对所述直播视频流进行转码处理，以便向直播视频的观看端进行推流；

其中，对所述画质处理模型进行训练的过程中包括多个训练阶段，以使得所述画质处理模型在所述多个训练阶段中逐步获得去除压缩失真的能力、细节特征恢复能力、去除噪声/模糊的能力以及细节特征增强能力；

在训练所述画质处理模型的去除噪声/模糊的能力以及细节特征增强能力时，收集真实的高画质图像，对高画质图像进行退化处理得到至少两种不同退化程度的低画质图像，并通过第一子阶段以及第二子阶段的训练，使得所述画质处理模型分别学习教师模型在处理低画质图像中质量相对较低的图像时的去噪、去模糊能力，以及在处理低画质图像中质量相对较高的图像时的细节生成能力；

在所述第二子阶段，采用的损失函数中包括边缘损失分量，所述边缘损失分量用于通过边缘提取算法提取出图像中的线条位置，并基于所述线条位置计算图像之间的像素差异，以使得所述画质处理模型在处理低画质图像中质量相对较高的图像时，输出图像在边缘特征上与训练目标近似。

2.根据权利要求1所述的方法，其特征在于，

所述对模型网络结构进行的优化处理还包括：在完成深层特征提取后，通过增加反卷积处理部分实现上采样，以使得输出分辨率与输入分辨率相同，并使得所述画质处理模型在处理过程保留输入视频帧的更多细节特征信息。

3.根据权利要求1所述的方法，其特征在于，

所述对模型网络结构进行的优化处理还包括：将所述RDN网络中用于进行超分处理的结构删除。

4.根据权利要求1所述的方法，其特征在于，

在训练所述画质处理模型的去除压缩失真能力时，收集真实的低画质图像，并利用去除压缩失真相关的专用模型对所述低画质图像进行处理，得到高画质图像，以此获得成对的低画质图像与高画质图像；

5.根据权利要求4所述的方法，其特征在于，还包括：

6.根据权利要求1所述的方法，其特征在于，

在训练所述画质处理模型的细节特征恢复能力时，收集覆盖多种真实的直播场景内容的高画质图像，并通过对真实的高画质图像进行CRF编码处理，以获得对应的低画质图像，并利用以此获得的成对的低画质图像与高画质图像对所述画质处理模型进行训练，以训练所述画质处理模型的细节恢复能力；

7.根据权利要求1所述的方法，其特征在于，

在训练所述画质处理模型的去除噪声/模糊的能力以及细节特征增强能力时，通过引入教师模型，并将教师模型对输入图像的输出结果作为训练目标进行训练，所述教师模型为具有综合性画质增强能力的模型，以使得所述画质处理模型学习到所述教师模型的综合性画质增强能力，所述综合性画质增强能力包括去噪声/模糊以及细节生成能力。

8.根据权利要求1所述的方法，其特征在于，

在第一子阶段，将其中退化程度较高的低画质图像作为所述画质处理模型以及所述教师模型的输入，并将所述教师模型的输出作为所述画质处理模型的训练目标，以使得所述画质处理模型学习到所述教师模型在处理低画质中质量相对较低的图像时的去噪、去模糊能力。

9.根据权利要求1所述的方法，其特征在于，

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至9任一项所述的方法的步骤。

11.一种电子设备，其特征在于，包括：

一个或多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时，执行权利要求1至9任一项所述的方法的步骤。

12.一种计算机程序产品，包括计算机程序/计算机可执行指令，其特征在于，所述计算机程序/计算机可执行指令被电子设备中的处理器执行时实现权利要求1至9任一项所述方法的步骤。