CN112750092A

CN112750092A - 训练数据获取方法、像质增强模型与方法及电子设备

Info

Publication number: CN112750092A
Application number: CN202110065099.3A
Authority: CN
Inventors: 张建; 周济; 孟冬伟; 罗先桂; 黄浩填
Original assignee: Guangzhou Huya Technology Co Ltd
Current assignee: Guangzhou Huya Technology Co Ltd
Priority date: 2021-01-18
Filing date: 2021-01-18
Publication date: 2021-05-04

Abstract

本申请提供一种训练数据获取方法、像质增强模型、像质增强方法、电子设备以及机器可读存储介质，所述训练数据用于像质增强模型，所述训练数据获取方法包括：获取高分辨率图像；将所述高分辨率图像转换为传感器所采集的原始图像；在所述原始图像上叠加满足指定分布的噪声，获得中间图像；将所述中间图像转换为低分辨率图像；其中，所述高分辨率图像为分辨率大于第一阈值的图像，所述低分辨率图像为分辨率小于第二阈值的图像。

Description

训练数据获取方法、像质增强模型与方法及电子设备

技术领域

本申请涉及图像处理技术领域，尤其涉及一种训练数据获取方法、像质增强模型和方法、电子设备以及机器可读存储介质。

背景技术

随着直播技术的不断发展与进步，越来越多的用户使用终端设备直播的方式记录并分享美食、美景、才艺等。然而，由于终端设备拍摄和数据上传压缩率的限制，用户通过终端设备上传直播视频流时，观众端所接收的直播画面的分辨率会比较低、像质较差，影响用户体验。

虽然，基于深度学习网络的图像恢复、增强以及超分辨率等技术在非视频直播领域已有较多的研究和应用。但是，由于视频直播的高度实时性，因此，目前所述深度学习网络在视频直播领域的应用还比较少。此外，基于深度学习网络的图像恢复、增强以及超分辨率技术，所使用的低分辨率训练数据，大部分是利用高性能的图像采集装置采集全色彩图像(如RGB图像)，通过人为为全彩色图像引入噪声或者模糊获取低分辨率图像，这种方法所获取的低分辨率训练图像与真实直播场景下所产生的低分辨率图像常常具有较大的差别。

发明内容

为克服相关技术中，由于像质增强模型训练的低分辨率图像与真实直播场景下所产生的低分辨率图像具有较大的差别，本申请提供了一种训练数据获取方法、像质增强模型、电子设备以及机器可读存储介质。

根据本申请实施例的第一方面，提供一种训练数据获取方法，所述训练数据用于像质增强模型，所述方法包括：获取高分辨率图像；将所述高分辨率图像转换为传感器所采集的原始图像；在所述原始图像上叠加满足指定分布的噪声，获得中间图像；将所述中间图像转换为低分辨率图像；其中，所述高分辨率图像为分辨率大于第一阈值的图像，所述低分辨率图像为分辨率小于第二阈值的图像。

根据本申请实施例的第二方面，提供一种像质增强模型，所述像质增强模型基于本申请第一方面所述的训练数据确定，用于实现对输入图像进行像质增强，所述像质增强模型包括：编码端和解码端；所述编码端包括一个输入卷积层以及指定数量的第一层级，所述第一层级依次串联，每个第一层级包括一个下采样层以及第一数量的残差模块；所述解码端包括指定数量的第二层级以及一个输出卷积层，所述第二层级依次串联，每个第二层级包括一个上采样层以及第二数量的残差模块；其中，所述编码端的最后一个第一层级的残差模块与所述解码端的首个第二层级的残差模块连接，所述第二数量大于所述第一数量。

根据本申请实施例的第三方面，提供一种基于本申请第二方面所述的像质增强模型的像质增强方法，所述方法包括：从主播端获取待处理图像；将所述待处理图像输入至所述像质增强模型，获得分辨率大于第一阈值的高分辨率图像；其中，所述待处理图像在所述像质增强模型中依次经过编码处理和解码处理，所述编码处理依次包括输入卷积处理和指定数量的第一处理，每个第一处理包括一个下采样处理和第一数量的特征提取，所述解码处理包括指定数量的第二处理和输出卷积处理，每个第二处理包括一个上采样处理和第二数量的特征恢复，且所述第二数量大于所述第一数量

将待处理图像输入至所述像质增强模型，获得高分辨率图像；其中，所述高分辨率图像的分辨率大于第一阈值。

根据本申请实施例的第四方面，提供一种电子设备，所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现本申请第一方面和本申请第三方面任一项所述的方法。

根据本申请实施例的第五方面，提供一种机器可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本申请第一方面和本申请第三方面任一项所述的方法。

本申请的实施例提供的技术方案可以包括以下有益效果：

本申请实施例中，通过将高分辨率图像转换为传感器所采集的原始图像，在所述原始图像上叠加满足指定分布的噪声，并将其转换为低分辨率图像，确定训练数据。由于是基于图像成像原理，模拟真实世界中，用户使用终端设备获取图像的过程。因此，基于本申请所述方法生成的低分辨率图像，与真实场景下生成的低分辨率图像更加接近，图像的低分辨率效果更加准确。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本说明书。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本说明书的实施例，并与说明书一起用于解释本申请的原理。

图1是本申请根据一示例性实施例示出的一种训练数据获取方法的流程图。

图2是本申请根据一示例性实施例示出的一种全彩色图像的生成流程图。

图3是本申请根据一示例性实施例示出的一种RGGB格式的彩色滤波阵列。

图4是本申请根据一示例性实施例示出的一种由RGGB格式的拜尔阵列图像进行去马赛克获得RGB图像的原理示意图。

图5是本申请根据一示例性实施例示出的一种色调映射前后的图像效果示意图。

图6是本申请根据一示例性实施例示出的一种对图像进行模糊核卷积生成低分辨率图像的示意图。

图7是本申请根据一示例性实施例示出的一种基于马尔科夫随机过程进行插值获取模糊核的原理示意图。

图8是本申请根据一示例性实施例示出的一种像质增强模型的结构示意图。

图9是本申请根据一示例性实施例示出的另一种像质增强模型的结构示意图。

图10本申请根据一示例性实施例示出的一种电子设备的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

随着直播技术的不断发展与进步，越来越多的用户使用终端设备直播的方式记录并分享美食、美景、才艺等。然而，由于终端设备拍摄的限制，例如，终端设备不稳或者拍摄对象运动，所造成的成像效果模糊；终端设备的图像采集装置的质量较差，所造成的像质较低等等，用户通过终端设备上传直播视频流时，观众端所接收的直播画面的分辨率会比较低、像质较差，影响用户体验。

虽然，基于深度学习网络的图像恢复、增强以及超分辨率在非视频直播领域已有较多的研究和应用。由于视频直播的高度实时性，因此，目前所述深度学习网络在视频直播领域的应用还比较少。

此外，基于深度学习的视觉算法需要大量的数据驱动。依据深度学习网络的学习方式，分为有监督和无(或者弱)监督学习，当前尤其是基于深度学习的图像处理领域，有监督的方法的效果几乎都强于无监督方法的效果，这使得基于深度学习的像质增强方法的效果强烈依赖于成对图像数据(例如噪声图像和干净图像、模糊图像和清晰图像)的数量和质量。然而，成对的图像数据是难以获取的。

对于噪声图像，当前已有一些研究利用相机的短长曝光，得到特定场景的噪声较多和噪声较少的图像作为深度学习网络的一对训练数据——输入和标签数据。但是，这种方法只能针对特定成像设备，并且图像采集成本很高。对于模糊图像，一种获取方法是，利用高速相机拍摄高帧率视频，通过将多个连续帧相加平均即可得到运动模糊图像，然而，由于相机拍摄帧率的限制(例如120Hz或者240Hz)，这种方法会造成合成图像重影较大。除此之外，还有其他多种方法获取用于深度学习网络训练的低分辨率图像，但是，依旧存在所获取的低分辨率图像与真实直播场景下所产生的低分辨率图像具有较大的差别。为了解决相关技术所存在的上述缺陷，本申请提供了一种训练数据的获取方法、像质增强模型和方法、电子设备以及机器可读存储介质。

接下来对本申请实施例进行详细说明。

如图1所示，图1是本申请根据一示例性实施例示出的一种训练数据的获取方法的流程图，所述训练数据的获取方法，用于基于高分辨率图像获取相应的低分辨率图像，以使所述高分辨率图像和所获得的低分辨率图像构成一组训练数据——标签数据和输入数据，用于对基于深度学习的像质恢复模型、像质增强模型等图像处理方面的模型进行训练，以获得具有优异性能的模型。所述训练数据获取方法包括以下步骤：

步骤S101，获取高分辨率图像；

步骤S102，将所述高分辨率图像转换为传感器所采集的原始图像；

步骤S103，在所述原始图像上叠加满足指定分布的噪声，获得中间图像；

步骤S104，将所述中间图像转换为低分辨率图像；

其中，所述高分辨率图像为分辨率大于第一阈值的图像，所述低分辨率图像为分辨率小于第二阈值的图像。

上述训练数据的获取方法，可以由服务器执行，还可以由具有较高处理能力的智能设备执行，也可以由具有相应运算能力的设备执行，本申请对此不做限制。

在一些实施例中，步骤S101，所述高分辨率图像可以通过高性能的图像采集设备获取，也可以是从现有的高分辨率图像数据库中获取，还可以是通过其他方式获取，例如，从高分辨率视频中抽帧获取，本申请对此不做限制。

在一些实施例中，所述高分辨率图像为分辨率大于指定阈值的RGB图像，当然，所述高分辨率图像还可以是其他格式的全彩色图像，例如可以是YUV格式的全彩色图像，本申请对此不做限制。

在介绍后续各个实施例之前，为了方便理解，首先介绍下全彩色图像的产生过程。参见图2，给出了对于景物201生成全彩色图像的流程示意图。景物201，首先经过光学镜头202进行成像，生成光学图像；光学图像经过传感器203进行光电转换，转换为模拟电信号；所述模拟电信号经过模数转换器204(A/D转换)的转换得到数字电信号。所述数字电信号经过一系列的图像信号处理205，能够得到全彩色图像206。

在上述过程中，传感器203不具备颜色感知的能力，只能够获取灰度图像。为了能够对景物201生成全彩色图像，通常采用在传感器203的感光阵面前增加彩色滤波结构，相应地，所述图像信号处理205包括对彩色信息的处理模块，就可以获得色彩逼真、高分辨率的全彩色图像。通常把传感器感光阵面所覆盖的彩色滤波结构称为彩色滤波阵列(ColorFilter Arrays,CFA)。

目前最常用的彩色滤波阵列是拜尔阵列式的，且存在多种类型。如图3所示，给出了一种特定的拜尔阵列式的彩色滤波阵列——RGGB格式的彩色滤波阵列301，其中，R、G、B分别表示红色、绿色和蓝色的滤波镜阵列单元。从图3可以看到，RGGB格式的彩色滤波阵列，每4个滤波镜阵列单元为一个重复单位302。原因在于人的视觉对绿色最为敏感，所以彩色滤波阵列的重复单位中，G分量通常是R和B的二倍。当传感器203的感光阵面前增加的是RGGB格式的彩色滤波阵列，则传感器203进行光电转换后，生成对应格式的拜尔阵列图像，即RGGB格式的原始图像(Raw Image)。所述RGGB格式的原始图像，即为与RGGB格式的彩色滤波阵列301对应的图像，图像的每4个像素点，分别具有红色、绿色、绿色和蓝色的颜色信息。除了RGGB格式的拜尔阵列式彩色滤波阵列，还存在其他多种类型的彩色滤波阵列，例如：RGBG、GRBG、BGGR等等。

基于增加了彩色滤波阵列的传感器所获得的图像，与彩色滤波阵列的颜色分布相同，看上去与加了马赛克的图像效果类似。此外，由于传感器与人的眼睛对色彩的响应并不相同等原因，对于传感器所获得信号进行模数转换204得到指定格式的拜尔阵列图像之后，还需要进行至少包括以下之一的图像信号处理205：去马赛克、颜色校正、色调映射等等，进而获得全彩色图像。其中，各个具体图像信号处理步骤，在后文中结合本申请的实施例进行详细介绍，本申请在此不做赘述。

基于上述全彩色图像的生成过程，在一些实施例中，本申请所述训练数据获取方法，步骤S102和步骤S103所涉及的原始图像为指定格式的传感器阵列图像，例如，当所述原始图像被基于RGGB彩色滤波阵列的传感器所采集，则所述原始图像为RGGB格式的传感器阵列图像。当然，本领域技术人员应当理解，当所述原始图像被采用其他格式彩色滤波阵列的传感器采集，则所述原始图像为其他格式的传感器阵列图像，包括但不局限于RGBG、GRBG、BGGR格式的拜尔阵列图像等等。

前文已经介绍，全彩色图像在生成过程中，需要经过图像信号处理205。然而，基于传感器所获得的原始图像的噪声通常符合特定分布，而基于图像信号处理的全彩色图像的噪声通常具有非常复杂的特性，不再符合原始图像所符合的特定分布。在生成低分辨率图像的相关技术中，通常是直接为高分辨率图像加上满足指定分布的噪声进而模拟低分辨率图像中的噪声分布。但是这并不符合真实场景下，低分辨率图像中噪声的叠加顺序(真实场景下，满足指定分布的噪声是叠加在原始图像上的)。因此，在本申请所述的训练数据获取方法中，先将所述高分辨率图像转换为传感器所采集的原始图像，再在所述原始图像上叠加满足指定分布的噪声，模拟真实场景中，满足指定分布的噪声在图像生成过程中的叠加。

故，在一些实施例中，本申请所述的训练数据获取方法中，步骤S102，将所述高分辨率图像转换为传感器所采集的原始图像，包括：对所述高分辨率图像进行图像信号处理逆变换；其中，所述图像信号处理逆变换，为所述高分辨率图像生成过程中所进行的图像信号处理变换的逆过程，所述图像信号处理变换至少包括以下之一：去马赛克、颜色校正和色调映射。

前文已经介绍，传感器所获得的图像，与彩色滤波阵列的颜色分布类似，看上去与加了马赛克的效果类似，因此，所述生成高分辨率图像的图像信号处理可以包括去马赛克(Demosaic)。所述去马赛克，是指通过颜色插值的方法，将传感器所获得的原始图像(通常为指定格式的传感器阵列图像，例如拜尔阵列图像)，转换为全彩色图像，例如RGB图像。

结合图4，以原始图像为RGGB格式的拜尔阵列图像、全彩色图像为RGB图像为例，进行去马赛克的示例性说明。基于增加了彩色滤波阵列的传感器可以获得如401所示的RGGB格式的原始图像。对原始图像401进行插值处理，能够分别获得红色图像402、绿色图像403以及蓝色图像404，基于三个彩色图像图像，进行颜色合成，能够获得全彩色图像405。所述插值处理，可以参考相关技术实现，本申请对此不做赘述。

因此，在一些实施例中，基于高分辨率图像获取原始图像，可以采用上述去马赛克过程的逆过程来实现。仍结合图4进行说明，即基于高分辨率图像405，先获取红色图像402、绿色图像403以及蓝色图像404，然后提取指定像素位置处的指定颜色的像素值，获取401所示的RGGB拜尔阵列的原始图像。

当然，本领域技术人员应当理解，上述去马赛克过程的逆过程仅为示例性说明。还可以基于具体高分辨率图像生成过程中所经历的图像信号处理过程中的去马赛克处理，相应地设计其逆过程，本申请对此不做限制。

由于人类眼睛可见光的频谱响应度和传感器频谱响应度之间存在差别，还有光学透镜自身色差的影响等，所述生成高分辨率图像的图像信号处理还可以包括颜色校正(Color Correction)。颜色校正通常的实现方法是通过一个预设的指定尺寸的颜色变化矩阵与待处理图像进行点乘运算，来得到经过颜色校正的图像。例如，选定一个3*3的颜色变化矩阵M，与待处理图像A点乘，得到经过颜色校正的图像B，即A*M＝B。

相应地，在一些实施例中，基于高分辨率图像获取原始图像，还可以使用一个预设的指定尺寸的颜色变化矩阵与所述高分辨率图像进行点乘，实现颜色校正的逆过程，获得原始图像。仍结合前例进行说明，对于上述经过颜色校正的高分辨率图像B，选定上述颜色变化矩阵M的逆矩阵M^-1，将所述高分辨率图像B与所述逆矩阵M^-1，就能得到未经过颜色校正的待处理图像A，即B*M^-1＝A。

其中，所述颜色变化矩阵的具体尺寸，可以根据所述高分辨率图像的尺寸以及处理器的运算能力确定。所述颜色变化矩阵的具体数值，可以基于经验确定，也可以使用现有的颜色变化矩阵，当然还可以是本领域技术人员自主设计的颜色变化矩阵，本申请对此不做限制。

由于由传感器所采集并进行图像信号处理后的高分辨率图像通常是需要在显示设备上向人们呈现的。而显示设备的对比度又通常较低，不同于人眼对颜色的响应。为了使得显示的图像效果尽量接近人们在真实世界中看到的效果。在由传感器所采集的原始图像，生成高分辨率图像的图像信号处理过程中，还可以包括色调映射，将原始图像中的像素值按照预设的映射关系进行映射，获取新的像素值。

结合图5进行说明。图5中的左图为未经过色调映射的图像，可以看到，原始图像中的一些重要信息，例如全局与局部的对比度和重要的细节丢失，图像效果与人们在真实世界中看到的效果具有较大的区别。基于预设的映射关系，将图5左图中的每个像素值映射到另一个新的像素值，以调整原始图像的对比度，使细节更加清晰地展现出来，获得如图5右图所示的图像，这个过程就是色调映射。在一些实施例中，对于像素值范围为0～255的待处理图像，可以预设一个映射表，通过查找每个像素值在映射表中对应的新的像素值，获得色调映射处理后的高分辨率图像。

那么，相应地，在一些实施例中，基于高分辨率图像获取原始图像，还可以基于预设的映射关系，对所述高分辨率图像进行颜色映射的逆过程，获得原始图像。以所述映射关系通过预设的映射表体现为例，对高分辨率图像进行颜色映射的逆过程就是，查找映射表中，高分辨率图像中的每个像素值对应的原始的像素值。当然，本领域技术人员应当理解，上述以映射表的方式体现预设的映射关系，仅为示例性说明。所述映射关系还可以通过其他算法来实现，本申请对此不做限制。

本申请所述的训练数据的获取方法中，步骤S102，将所述高分辨率图像转换为传感器所采集的原始图像，可以仅通过图像信号处理过程中的去马赛克处理，或颜色校正，或色调映射的逆过程实现，还可以通过去马赛克处理，颜色校正，和色调映射的逆过程中的多个来实现，本申请对此不做限制。

此外，本领域技术人员应当理解，所述高分辨率图像的生成过程中所经过的图像信号处理过程，除了可以包括去马赛克处理、颜色校正和色调映射，还可以包括镜头校正、伽马校正、白平衡处理等等，则，将所述高分辨率图像转换为传感器所采集的原始图像，还可以通过上述镜头校正、伽马校正、白平衡处理等等的逆过程来实现，本申请对此也不做限制。

通过上述各实施例，能够基于所述高分辨率图像，获得其对应的传感器所采集的原始图像。在本申请所述的训练数据获取方法中，步骤S103，在所述原始图像上叠加满足指定分布的噪声，获得中间图像。在一些实施例中，在所述原始图像上叠加的噪声包括所述传感器的散粒噪声和\或所述传感器的读取噪声。

使用传感器对真实世界中的物体进行拍摄成像，所获得原始图像中往往会存在噪声。所述噪声主要来自于传感器的噪声。而传感器的噪声主要来自于进光拍摄所带来的散粒噪声(又称shot噪声)和电路不精确的读取所带来的读取噪声(又称为read噪声)。其中，散粒噪声来自光照累计，可以表达为泊松分布。而读取噪声可以表达为固定方差的高斯分布。

在一些实施例中，所述传感器的散粒噪声服从均为分布，所述均匀分布的数学表达式为：

log(λ_shot)～U(a＝log(0.0001),b＝log(0.012)) (1)

其中，λ_shot为传感器的散粒噪声，U表示均匀分布，a表示均匀分布的最小值，b表示均匀分布的最大值。

在一些实施例中，所述传感器的读取噪声服从高斯分布，所述高斯分布的表达式为：

log(λ_read)～N(μ＝2.18log(λ_shot)+1.2,σ＝0.26) (2)

其中，λ_shot为传感器的散粒噪声，λ_read为传感器的读取噪声，N表示高斯分布，μ表示均值，σ表示方差。

由上式可以看到，所述传感器的读取噪声与所述传感器的散粒噪声有关。所述传感器的散粒噪声可以由公式(1)确定，也可以由其他分布公式确定，本申请对此不做限制。

本领域技术人员应当理解，上述传感器的散粒噪声和读取噪声的具体表达式，仅为示例性说明。所述传感器的散粒噪声和读取噪声还可以是以其他表达式表示的噪声，本申请对此不做限制。

根据上述实施例可以看到，当所述传感器的噪声主要来自散粒噪声和读取噪声，那么，步骤S103，在所述原始图像上叠加满足指定分布的噪声，获得中间图像，中间图像的像素分布强度可以表示为一个方差与散粒噪声和读取噪声有关的高斯分布：

y～N(μ＝x,σ²＝λ_read+λ_shotx) (3)

其中，x为未引入噪声的原始图像的真实像素强度，y为引入了噪声的原始图像的像素值。

基于上述实施例可以看到，先将高分辨率转换为传感器所采集的原始图像，再将所述满足指定分布的噪声叠加至所述原始图像上，能够比较真实地模拟真实世界中，噪声对全彩色图像生成的影响。

本领域技术人员应当理解，在所述原始图像上叠加满足指定分布的噪声，获得中间图像，所述满足指定分布的噪声，除了可以是传感器的散粒噪声和读取噪声，还可以是其他噪声，例如传感器的热噪声等等，本申请对此不做限制。

为了更准确地模拟真实世界中，低分辨率图像的生成过程，在本申请所述的训练数据获取方法中，步骤S103，将所述中间图像转换为低分辨率图像，可以通过以下方式实现：将所述中间图像进行指定的图像信号处理变换，获得第一低分辨率图像；其中，所述指定的图像信号处理变换至少包括以下处理方式中的一个：去马赛克、颜色校正和色调映射。

基于前文所述的步骤S101和步骤S102，能够获得叠加了指定分布的噪声的原始图像，即相当于获得了图2中A/D转换204之后的图像数据。那么，对所述叠加了指定分布的噪声的原始图像进行图2所示的图像信号处理变换205，得到第一低分辨率图像，能够模拟真实场景下，低分辨率图像的生成。

其中，所述指定的图像信号处理变换至少包括以下处理方式中的一个：去马赛克、颜色校正和色调映射。图像处理变换过程中的去马赛克、颜色校正和色调映射，前文已经详细说明，这里不再赘述。

通过上述实施例可以看到，通过将高分辨率图像转换为传感器所采集的原始图像，在所述原始图像上叠加满足指定分布的噪声，并将其通过指定的图像信号处理，获取低分辨率图像。由于是基于图像成像原理，模拟真实世界中，用户使用终端设备获取图像的过程。因此，基于本申请所述方法生成的低分辨率图像，与真实场景下生成的低分辨率图像更加接近。

对于利用图像采集设备获取图像的应用场景，由于拍摄装置和拍摄对象之间存在相对运动，如拍摄对象运动、拍摄设备抖动等，以及未对焦等原因，会造成所获得的低分辨率图像中存在模糊。为了更加准确地模拟低分辨率图像的生成，在一些实施例中，步骤S103，将所述中间图像转换为低分辨率图像，还可以包括：将所述第一低分辨率图像与指定的模糊核进行卷积，获得第二低分辨率图像。其中，所述第一低分辨率图像，为前文所述的，在原始图像上叠加了满足指定分布的噪声之后进行指定的图像信号处理所获取的第一低分辨率图像。

结合图6进行说明。在图6中，601为前文所述的第一低分辨率图像(以像素值的形式表示)，602为以矩阵形式表示的模糊核，603为将所述第一低分辨率图像601与模糊核602进行卷积操作后所获得的第二低分辨率图像。基于卷积的物理意义，可知，将所述模糊核与所述第一低分辨率图像进行卷积操作，本质上是将每个像素的邻域的信息叠加至该像素上，而理想的成像过程是每个像素点唯一对应一个物点的信息。因此，进行模糊核的卷积即模拟了真实拍摄场景下，由于相对运动或者未对焦等原因，所造成的某个物点的信息叠加在多个像素点上的效果。

所述以矩阵形式表示的模糊核，矩阵的尺寸本申请不做限制。当所述模糊核的尺寸越大，经过卷积操作后，每个像素点上所叠加的邻域像素点的数量就越多，所得到的第二分辨率的模糊效果就明显，但是，模糊核尺寸越大，进行卷积操作的运算量就越大，对处理器的运算能力的要求就越高。故，所述模糊核尺寸，可以在模糊效果和运算量之间进行权衡选取。

所述模糊核，可以基于随机运动确定，还可以基于其他方式确定，例如基于经验设置的模糊核、基于深度学习从低分辨率图像中提取的模糊核等等，本申请对此不做限制。

所述用于获取第二低分辨率图像的模糊核可以有多种选择。在一些实施例中，所述模糊核可以基于马尔科夫随机过程的轨迹函数确定。

所谓马尔科夫随机过程，是指一个粒子具有初始速度，其下一时刻的速度仅与当前时刻相关，下一时刻的速度变化可以由具体的随机分布确定。如图7所示，为以马尔科夫随机过程运动的一个粒子在某段时间内的随机运动轨迹(以灰色连续线段表示)。如图7所示，对所述粒子的运动轨迹进行亚像素插值(即运动轨迹周围的像素块)，可以从中随机提取一定大小的矩阵，得到对应尺寸的模糊核。

当然，本领域技术人员应当理解，除了可以基于马尔科夫随机过程的轨迹函数确定模糊核，还可以基于其他随机过程对应的函数确定模糊核，例如布朗运动、泊松过程等等，本申请对所述模糊核依据哪种具体的随机过程确定不做限制。

通过上述实施例可以看到，通过将高分辨率图像转换为传感器所采集的原始图像，在所述原始图像上叠加满足指定分布的噪声，并将其通过指定的图像信号处理以及模糊核卷积处理，转换为低分辨率图像，确定训练数据。由于是基于图像成像原理，模拟真实世界中，用户使用终端设备获取图像的过程，不仅考虑了传感器噪声、图像信号处理的影响，还考虑了相对运动、未对焦等模糊因素的影响，因此，基于本申请所述方法生成的低分辨率图像，与真实场景下生成的低分辨率图像更加接近。

对于直播场景下，主播端通过具有图像采集装置的终端设备获取构成视频的图像，并经过无线网络或者有线网络等通讯方式传送给用户端。在这个过程中，所述低分辨率图像的形成还受图像编码的影响。因此，为了模拟该种场景下低分辨率图像的形成，在一些实施例中，本申请所述的训练数据的获取方法的步骤S104中，将所述中间图像转换为低分辨率图像，还包括：将所述第二分辨率图像进行指定的编码处理，获得第三分辨率图像，其中，所述指定的编码处理具有预设的压缩率。

图像或者视频帧在传输过程中，为了节省通信带宽、提高传输速度，通常会对所述图像或者视频帧进行编码处理，获得具有一定压缩率的图像或者视频帧。大部分编码处理为有损压缩处理，例如JPEG压缩编码等等。为了模拟真实场景下，因编码过程造成的图像分辨率的下降，对于前文所获得的第二分辨率图像，还可以进行真实场景中所使用的指定的编码处理，所述编码处理可以参考相关技术实现，来实现真实直播场景下，由于编码所造成的分辨率损失，本申请不做赘述。所进行的指定的编码处理，可以具有预设的压缩率，此外，还可以设置具有预设的码流、量化参数(Quantization Parameter,QP值)等等，本申请对此不做限制。

通过上述实施例可以看到，通过将高分辨率图像转换为传感器所采集的原始图像，在所述原始图像上叠加满足指定分布的噪声，并将其通过指定的图像信号处理、模糊核卷积以及编码处理，转换为低分辨率图像，确定训练数据。由于是基于图像成像原理，模拟真实世界中，用户使用终端设备获取图像的过程，除了上述其他造成图像像质下降的因素之外，还考虑了图像在传输过程中的编码损失。因此，基于本申请所述方法生成的低分辨率图像，与真实场景下生成的低分辨率图像更加接近。

本领域技术人员应当理解，也可以先对高分辨率图像引入编码损失，然后再将引入了编码损失的高分辨率图像转换为原始图像，然后叠加满足指定分布的噪声，进行图像信号处理，再与模糊核进行卷积操作，获得低分辨率图像。所获得的低分辨率图像同样更接近于真实场景所获得的低分辨率图像，能够用于基于深度学习网络的像质增强模型、像质恢复模型等的训练。

基于本申请前文所述的训练数据的获取方法，能够获取与真实场景下生成的低分辨率图像更加接近的低分辨率图像。基于上述训练数据的获取方法所获得的低分辨率图像，以及生成低分辨率图像对应的高分辨率图像，可以构成一对训练数据，用于确定基于深度学习网络的像质增强模型的参数。

基于本申请所述的训练数据获取方法，本申请还提供了一种像质增强模型，所述像质增强模型基于前文所述的方法所获得训练数据确定，用于实现对输入图像进行像质增强，如图8所示，所述像质增强模型包括：编码端801和解码端802。

其中，所述编码端801包括一个输入卷积层以及指定数量的第一层级803，所述第一层级803依次串联，每个第一层级803包括一个预设尺寸的下采样层以及第一数量的残差模块；所述解码端802包括指定数量的第二层级804以及一个输出卷积层，所述第二层级804依次串联，每个第二层级包括一个预设尺寸的上采样层以及第二数量的残差模块；所述编码端801的最后一个第一层级803的残差模块与所述解码端802的首个第二层级804的残差模块连接，所述第二数量大于第一数量，即所述解码端的第二层级804中的残差模块的数量大于所述编码端的第一层级803中的残差模块。

相关技术中，用于去除噪声的深度学习网络采用U-Net网络或者改进的U-Net网络，通常都采用对称结构，即在网络的编码端，采用指定数量的卷积层和下采样层，相应地，在网络的解码端，采用相同数量的上采样层和卷积层。在本申请中，为了获得性能更优异的用于像质增强的深度学习网络，构建了如图8所示的像质增强模型，所述像质增强模型采用非对称结构，在编码端的下采样层之后和解码端的上采样层之前，加入残差模块，用于高级特征的进一步提取和恢复。此外，由于解码端是用于对图像进行恢复，故，所述解码端的残差模块的数量大于编码端的残差模块的数量，用于更深层次地恢复出图像的特征。所述残差模块的具体结构，可以参考相关技术，本申请对此不作赘述。

基于上述实施例所构建的如图8所示的像质增强模型，将基于前文所述的训练数据的获取方法所获得的低分辨率图像和其对应的高分辨率图像，作为一对训练数据，即低分辨率图像为所述像质增强模型的输入数据，所述高分辨率图像为所述输入数据对应的标签。基于多对训练数据，对所述像质增强模型进行训练，直到预先构建的损失函数满足预设的训练条件，则获得完成训练的像质增强模型。其中，预先构建的损失函数，可以是用于衡量所述深度学习网络的输入与所述标签(即高分辨率图像)的相似度、绝对距离、平方距离等的损失函数，本申请对此不作限制。利用训练完成的像质增强模型，将待进行像质增强且不带标签的低分辨率输入至所述训练完成的像质增强模型，能够获得进行了像质增强的高分辨率图像。

由上述实施例可知，本申请基于前文所述的训练数据的获取方法得到低分辨率图像，与其对应的高分辨率图像作为一对训练数据，对本申请所构建的像质增强模型进行训练，由于所构建的像质增强模型采用非对称结构的深度学习网络，且其解码端的残差模块的数量多于编码端的残差模块的数量，因此，能够更深层次地恢复出低分辨率图像的特征，进而获得性能更好的像质增强模型。

在一些实施例中，所述像质增强模型的解码端还包括特征串联层，所述特征串联层连接在所述编码端的最后一个第二层级的上采样层之后，用于将所述输入卷积层的输入和所述输入卷积层的输入结果与所述最后一个第二层级的上采样层的输出结果进行特征融合；和\或，所述特征串联层连接在所述编码端的其他非最后一个第二层级的上采样层之后，用于将所述编码端的残差模块的输出结果，与对应的第二层级的上采样层的输出结果进行特征融合。

如图9所示，给出了本申请所述的一个示例性像质增强模型，其中，所述像质增强模型的编码端包括两个第一层级803，解码端包括两个第二层级804。由图9可以看到，在编码端的两个第二层级804中加入特征串联层，所述特征串联层位于每个第二层级804的下采样层之后。解码端的最后一个特征串联层将所述输入数据、输入卷积层的输出结果以及其前一层的上采样的输出结果进行特征融合。由于进行了三者的融合，因此，所述像质增强模型能够学到输入数据和编码端更多的信息，进而能够获得更好的训练效果。此外，解码端的非最后一个特征串联层，即如图9所示的解码端的第一个特征串联层，将与其对应尺寸的残差模块的特征与该特征串联层上一层的上采样结果进行融合，同样，也能够的学到输入数据和编码端更多的特征，有利于获得更好的训练效果。

由上述实施例可以看到，在本申请所述的像质增强模型中进一步引入特征串联层，将输入数据和\或编码端所提取到的特征与解码端上采样的输出结果进行特征融合，能够使得所述像质增强模型学到输入数据和编码端更多的信息，获得性能更好的像质增强模型。

在一些实施例中，所述像质增强模型，其解码端在所述输出卷积层之后，还可以包括一个指定尺寸的上采样层，用于对所述输出卷积层的输出结果进行上采样，进一步地获取超分辨率图像。

仍结合图9进行说明，可以看到，在图9中，所述像质增强模型解码端的上采样层的数量与编码端的下采样层的数量相同，因此，图9训练完成的像质增强模型，可以实现对输入低分辨率图像的像质恢复。在图9所示的像质增强模型的输出卷积层之后，再加入一个上采样层，基于本申请所述的训练数据的获取方法得到的训练数据，对在输出卷积层之后增加了一个上采样层的像质增强模型进行训练，直到预设的损失函数满足训练条件。训练完成的像质增强模型，能够对待处理的低分辨率图像实现分辨率的进一步提升，即获取所述待处理的低分辨率图像对应的超分辨率图像。

通过上述实施例可以看到，当所述像质增强模型采用非对称结构，即解码端的残差模块的数量多于编码端的残差模块数量，且接入特征串联层，将输入数据和\或编码端的特征融合到解码端，并在解码端的输出卷积层加入一个上采样层，能够对输入至该训练完成的像质增强模型的待处理的低分辨率图像实现超分辨率图像的获得。

当本申请前文所述的各像质增强模型应用在直播等图像帧的生成具有高实时性的应用场景时，所述像质增强模型编码端的第一层级的数量和解码端的第二层级的数量可以分别低于第一阈值和第二阈值，即限定所述像质增强模型的深度学习网络的层数，从而使得所述像质增强模型为轻量级的深度学习网络，能够更快地完成训练，并在应用时能够更快地获取输出数据。

在基于本申请前述实施例所获得的训练数据，对前述像质增强模型进行训练，能够获得训练完成的像质增强模型。将所述训练完成的像质增强模型预先安装在直播厂商的服务器端，对来自主播端推流的图像，基于所安装的像质增强模型进行像质增强，能够获得分辨率大于预设阈值的高分辨率图像，并转发给用户端，令用户端接收到分辨率大于预设阈值的高分辨率图像。或者，将所述训练完成的像质增强模型预先安装在用户端，当用户接收到来自主播端推流的图像，基于所安装的像质增强模型进行像质增强，也能够获得分辨率大于预设阈值的高分辨率图像。当然，所述像质增强模型也可以被安装在第三服务器上，以对主播端推流的图像进行像质增强，令用户端接收到分辨率大于预设阈值的高分辨率图像。当然，本领域技术人员应当理解，所述高分辨率图像可以作为图像帧构成高清视频，即基于所述像质增强模型，用户端最终能够获得分辨率高于预设阈值的高清视频。

因此，与本申请所述的像质增强模型相对应，相应地，本申请还提供了一种基于所述像质增强模型的像质增强方法，所述方法包括：从主播端获取待处理图像；将所述待处理图像输入至所述像质增强模型，获得分辨率大于第一阈值的高分辨率图像；

其中，所述待处理图像在所述像质增强模型中依次经过编码处理和解码处理，所述编码处理依次包括输入卷积处理和指定数量的第一处理，每个第一处理包括一个下采样处理和第一数量的特征提取，所述解码处理包括指定数量的第二处理和输出卷积处理，每个第二处理包括一个上采样处理和第二数量的特征恢复，且所述第二数量大于所述第一数量。

利用前文所述的训练数据的获取方法所得到的训练数据，对前文所述的像质增强模型基于预设的损失函数进行训练，获得训练完成的像质增强模型。由于经过了大量数据的训练，因此，将从主播端获取的待处理图像，输入至所述像质增强模型进行包括编码和解码的处理，所述像质增强模型能够自动学习到输入数据的特征，进而能够生成相应的高分辨率图像。所述训练完成的像质增强模型，可以被设置在终端设备上，也可以被设置在直播应用厂商的服务器上，还可以被设置于第三方的运算设备上，相应地，所述像质增强方法，可以直接由终端设备执行，也可以由直播应用厂商的服务器执行，还可以由第三方的运算设备执行，本申请对此不做限制。

与所述像质增强模型相对应，在一些实施例中，在所述解码处理最后一个上采样处理之后，所述方法还可以包括：将所述输入卷积处理的输入和所述输出卷积处理的输出结果与所述最后一个上采样处理的输出结果进行特征融合；

和\或，

在所述解码处理的其他非最后一个上采样处理之后，所述方法还包括：

将所述编码处理的特征提取的输出结果与对应尺寸的上采样处理的输出结果进行特征融合。

通过上述实施例可以看到，利用本申请的训练数据得到训练完成的像质增强模型，具有能够基于输入的待处理图像生成其对应的高分辨率图像的能力。当将所述像质增强模型和对应的像质增强方法应用在真实的直播场景中，能够应对图像采集设备成像效果不佳、拍摄对象相对于图像采集设备具有相对运动等原因造成的图像像质降低的问题，能够为用户提供更好的观看体验。

与所述像质增强模型相对应，在一些实施例中，在解码处理的输出卷积处理之后，所述方法还可以包括一个上采样处理，用于实现对所述待处理图像进行超分辨率处理。

通过上述实施例可以看到，利用本申请的训练数据得到训练完成的像质增强模型，具有能够基于输入的待处理图像生成器对应的超分辨率图像的能力。当将所述像质增强模型和对应的像质增强方法应用在真实的直播场景中，能够应对图像采集设备成像效果不佳、拍摄对象相对于图像采集设备具有相对运动等原因造成的图像像质降低的问题，能够为用户提供更好的观看体验。

本申请所述的训练数据的获取方法，可以基于高分辨率图像，模拟真实场景下低分辨率图像的形成过程，获得像质更加接近于真实世界中的低分辨率图像，所获得的低分辨率图像与其对应的高分辨率图像，可以作为一对训练数据。所述训练数据可以用于本申请所述的像质增强模型的训练，也可以用于其他基于深度学习网络的像质增强模型、像质复原模型、超分辨率模型等的训练，本申请对此不做限制。

与前述方法的实施例相对应，本申请还提供了电子设备的实施例。所述电子设备，可以是服务器或者终端设备等等。

参见图10，为本申请电子设备实施例的一种硬件结构图，所述电子设备可以包括存储器1001以及处理器1002。所述存储器1001可以是所述电子设备的内部存储单元，例如是设备的硬盘或者内存。所述存储器1001也可以是所述设备的外部存储设备，例如所述设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(SecureDigital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器1001还可以既包括所述设备的内部存储单元也包括外部存储设备。所述存储器1001用于存储所述计算机程序以及所述设备所需的其他程序和数据。所述存储器1001还可以用于暂时地存储已经输出或者将要输出的数据。当存储器1001存储的程序被执行时，所述处理器1002调用存储器1001中存储的程序，用于执行前述各实施例的方法，所述方法已在前文详细介绍，这里不再赘述。

当然，本领域技术人员应当理解，通常根据该电子设备的实际功能，还可以包括其他硬件，例如网络接口等等，本申请对此不再赘述。

在本申请的实施例中还提供了一种机器可读存储介质，所述机器可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本申请上述方法中的所有实施例，在此不再赘述。

所述机器可读存储介质可以是前述任一项实施例所述的设备的内部存储单元，例如设备的硬盘或内存。所述机器可读存储介质也可以是所述设备的外部存储设备，例如所述设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(SecureDigital，SD)卡，闪存卡(Flash Card)等。进一步地，所述机器可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。所述机器可读存储介质用于存储所述计算机程序以及所述设备所需的其他程序和数据。所述机器可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本领域技术人员在考虑申请及实践这里申请的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未申请的本技术领域中的公知常识或惯用技术手段。申请和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种训练数据获取方法，其特征在于，所述训练数据用于像质增强模型，所述方法包括：

获取高分辨率图像；

将所述高分辨率图像转换为传感器所采集的原始图像；

在所述原始图像上叠加满足指定分布的噪声，获得中间图像；

将所述中间图像转换为低分辨率图像；

2.根据权利要求1所述的方法，其特征在于，所述高分辨率图像为高分辨率的RGB图像，和\或所述原始图像为指定格式的传感器阵列图像。

3.根据权利要求1所述的方法，其特征在于，将所述高分辨率图像转换为传感器所采集的原始图像，包括：

对所述高分辨率图像进行图像信号处理逆变换；

其中，所述图像信号处理逆变换，为所述高分辨率图像生成过程中所进行的图像信号处理变换的逆过程，所述图像信号处理变换至少包括以下之一：去马赛克、颜色校正和色调映射。

4.根据权利要求1所述的方法，其特征在于，在所述原始图像上叠加的噪声包括所述传感器的散粒噪声和\或所述传感器的读取噪声。

5.根据权利要求4所述的方法，其特征在于，所述传感器的散粒噪声服从均匀分布，所述均匀分布的数学表达式为：

log(λ_shot)～U(a＝log(0.0001),b＝log(0.012))；

和\或，

所述传感器的读取噪声服从高斯分布，所述高斯分布的表达式为：

log(λ_read)～N(μ＝2.18log(λ_shot)+1.2,σ＝0.26)；

其中，λ_shot为传感器的散粒噪声，λ_read为传感器的读取噪声，U表示均匀分布，N表示高斯分布，a表示均匀分布的最小值，b表示均匀分布的最大值，μ表示均值，σ表示方差。

6.根据权利1所述的方法，其特征在于，将所述中间图像转换为低分辨率图像，包括：

将所述中间图像进行指定的图像信号处理变换，获得第一低分辨率图像；

其中，所述指定的图像信号处理变换至少包括以下之一：去马赛克、颜色校正和色调映射。

7.根据权利要求6所述的方法，其特征在于，将所述中间图像转换为低分辨率图像，还包括：

将所述第一低分辨率图像与指定的模糊核进行卷积，获得第二低分辨率图像。

8.根据权利要求7所述的方法，其特征在于，所述指定的模糊核基于马尔科夫随机过程的轨迹函数确定。

9.根据权利要求8所述的方法，其特征在于，将所述中间图像转换为低分辨率图像，还包括：

将所述第二低分辨率图像进行指定的编码处理，获得第三低分辨率图像；

其中，所述指定的编码处理具有预先设定的压缩率。

10.一种像质增强模型，其特征在于，所述像质增强模型基于权利要求1至9任一所述的训练数据确定，用于实现对输入数据进行像质增强，所述像质增强模型包括：编码端和解码端；

所述编码端包括一个输入卷积层以及指定数量的第一层级，所述第一层级依次串联，每个第一层级包括一个下采样层以及第一数量的残差模块；

所述解码端包括指定数量的第二层级以及一个输出卷积层，所述第二层级依次串联，每个第二层级包括一个上采样层以及第二数量的残差模块；

其中，所述编码端的最后一个第一层级的残差模块与所述解码端的首个第二层级的残差模块连接，所述第二数量大于所述第一数量。

11.根据权利要求10所述的像质增强模型，其特征在于，所述解码端还包括特征串联层；

所述特征串联层连接在所述解码端的最后一个上采样层之后，用于将所述输入卷积层的输入和所述输入卷积层的输出结果与所述最后一个第二层级的上采样层的输出结果进行特征融合；

和\或，

所述特征串联层连接在所述解码端的其他非最后一个第二层级的上采样层之后，用于将所述编码端的残差模块的输出结果，与对应尺寸的第二层级的上采样层的输出结果进行特征融合。

12.根据权利要求10所述的像质增强模型，其特征在于，所述解码端在所述输出卷积层之后，还包括一个上采样层，用于对所述输出卷积层的输出结果进行上采样。

13.一种基于权利要求10所述的像质增强模型的像质增强方法，其特征在于，所述方法包括：

从主播端获取待处理图像；

将所述待处理图像输入至所述像质增强模型，获得分辨率大于第一阈值的高分辨率图像；

14.根据权利要求13所述的方法，其特征在于，在所述解码处理最后一个上采样处理之后，所述方法还包括：

将所述输入卷积处理的输入和所述输出卷积处理的输出结果与所述最后一个上采样处理的输出结果进行特征融合；

和\或，

15.根据权利要求14所述的方法，其特征在于，在解码处理的输出卷积处理之后，所述方法还包括一个上采样处理。

16.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现权利要求1至9或13至15任一项所述的方法。

17.一种机器可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1至9或13至15任一项所述的方法。