CN110532871B

CN110532871B - 图像处理的方法和装置

Info

Publication number: CN110532871B
Application number: CN201910671487.9A
Authority: CN
Inventors: 吴驹东; 汪亮; 张子明
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2019-07-24
Filing date: 2019-07-24
Publication date: 2022-05-10
Anticipated expiration: 2039-07-24
Also published as: CN110532871A

Abstract

本申请提供了一种视频处理的方法和装置。涉及人工智能领域，具体涉及计算机视觉领域。该方法包括获取第一图像，第一图像包括较低分辨率的第一人脸图像；提取第一人脸图像的第一人脸特征；根据神经网络模型与人脸特征之间的一一对应关系，确定与第一人脸特征对应的第一神经网络模型，其中，所述第一人脸特征与所述第一神经网络模型对应的第二人脸特征之间的相似度在预设范围内；将第一人脸图像输入第一神经网络模型，以获取较高分辨率的第二人脸图像，从而确定最终的图像。根据对应于特定的人的神经网络模型，对该特定的人的图像进行超分辨率处理，使得处理后的图片更好的反映特定的人的特点。

Description

图像处理的方法和装置

技术领域

本申请涉及计算机视觉领域，尤其涉及一种图像处理的方法及装置。

背景技术

计算机视觉是各个应用领域，如制造业、检验、文档分析、医疗诊断，和军事等领域中各种智能/自主系统中不可分割的一部分，它是一门关于如何运用照相机/摄像机和计算机来获取我们所需的，被拍摄对象的数据与信息的学问。形象地说，就是给计算机安装上眼睛(照相机/摄像机)和大脑(算法)用来代替人眼对目标进行识别、跟踪和测量等，从而使计算机能够感知环境。因为感知可以看作是从感官信号中提取信息，所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。总的来说，计算机视觉就是用各种成像系统代替视觉器官获取输入信息，再由计算机来代替大脑对这些输入信息完成处理和解释。计算机视觉的最终研究目标就是使计算机能像人那样通过视觉观察和理解世界，具有自主适应环境的能力。

超分辨率处理是图像处理领域中重要的研究任务之一，在监控图像、卫星图像和医学影像等领域都有重要的应用价值。在日常生活中，人脸图像往往是一整张图像中人们专注的重点区域。根据低分辨率图像，获取更加符合人的特点的高分辨率图像十分重要。

发明内容

本申请提供一种视频处理的方法及装置，能够提高视频中的人脸清晰度，更好的反映特定的人的细节特点。

第一方面，提供了一种图像处理的方法，包括：获取第一图像，所述第一图像包括第一分辨率的第一人脸图像和所述第一人脸图像之外的背景图像；将所述第一人脸图像输入特征提取模型，以获取所述第一人脸图像的第一人脸特征；根据至少一个神经网络模型与至少一个人脸特征之间的一一对应关系，确定与所述第一人脸特征对应的第一神经网络模型，其中，所述第一人脸特征与所述第一神经网络模型对应的第二人脸特征之间的相似度在预设范围内，所述神经网络模型用于获取第二分辨率的图像，所述第二分辨率高于所述第一分辨率；将所述第一人脸图像输入所述第一神经网络模型，以获取第二分辨率的第二人脸图像；根据所述第二人脸图像和所述背景图像，确定第二图像。

通过将人脸图像输入到与特定的人脸特征对应的神经网络模型进行超分辨率处理，可以使得处理后的叫高分辨率的图像更好的反映特定的人的细节特点，提高用户体验。

结合第一方面，在一些可能的实现方式中，所述方法还包括：获取第三分辨率的第一训练人脸图像；将所述第一训练人脸图像对应的第四分辨率的第二训练人脸图像输入第一原始模型，以获取第三分辨率的第三训练人脸图像，所述第三分辨率高于所述第四分辨率；根据所述第一训练人脸图像和所述第三训练人脸图像调整所述第一原始模型的参数，以使所述第一训练人脸图像和所述第三训练人脸图像的相似度在第二预设范围内；将调整后的所述第一原始模型作为第二神经网络模型；获取所述第一训练人脸图像的第三人脸特征；确定所述第二神经网络模型与所述第三人脸特征的对应关系，所述第二神经网络是所述至少一个神经网络中的任一神经网络模型。

通过训练，生成神经网络模型。神经网络模型的训练，可以由使用神经网络模型进行图像处理的设备进行，也可以由其他设备进行。在神经网络模型训练的过程中，基于第一原始模型处理得到的高清人脸图像，以及原始的高清人脸图像，对第一原始模型进行参数调整，以获取神经网络模型，提高了神经网络模型对特定人的人脸图像的理解能力，从而提高了超分辨率处理的准确性。

结合第一方面，在一些可能的实现方式中，所述方法还包括：对所述第一训练人脸图像进行下采样，以获取所述第二训练人脸图像。

通过对高分辨率的图像进行下采样，以获取神经网络模型训练时输入的低分辨率的图像，减小输入数据的数量，可以降低对输入数据的依赖。可以理解，为了获得性能更好的神经网络模型，需要通过对多张高清图像进行下采样，以获取较多的训练数据。对不同的高清图像进行下采样，下采样的倍数相等。

结合第一方面，在一些可能的实现方式中，所述方法还包括：获取第五分辨率的第四训练人脸图像；将所述第四训练人脸图像对应的第六分辨率的第五训练人脸图像输入第二原始模型，以获取第五分辨率的第六训练人脸图像，所述第五分辨率高于所述第六分辨率；根据所述第四训练人脸图像和所述第六训练人脸图像调整所述第二原始模型的参数，以使所述第四训练人脸图像和所述第六训练人脸图像的相似度在第三预设范围内；获取第七分辨率的第七训练人脸图像；将所述第七训练人脸图像对应的第八分辨率的第八训练人脸图像输入调整后的第二原始模型，以获取第七分辨率的第九训练人脸图像，所述第七分辨率高于所述第八分辨率；根据所述第七训练人脸图像和所述第九训练人脸图像调整所述第二原始模型的参数，以使所述第一训练人脸图像和所述第三训练人脸图像的相似度在第二预设范围内；将第二次调整后的所述第一原始模型作为第二神经网络模型；获取所述第七训练人脸图像的第四人脸特征；确定所述第二神经网络模型与所述第四人脸特征的对应关系，所述第二神经网络是所述至少一个神经网络中的任一神经网络模型。

特定的人的图像数量有限，为了避免神经网络训练过程中出现过拟合，可以在根据特定人的人脸图像对神经网络模型进行调整之前，通过非特定人的人脸图像进行预训练。

结合第一方面，在一些可能的实现方式中，所述第五分辨率与所述第六分辨率的比值为第一比值，与所述第七分辨率与所述第八分辨率的比值为第二比值；所述第一比值等于所述第二比值。

预训练过程中训练图像分辨率的比值，与根据特定人的人脸图像训练神经网络模型过程中训练图像分辨率的比值相等，以提高神经网络模型超分辨率处理的准确性。

结合第一方面，在一些可能的实现方式中，所述方法还包括：对所述第七训练人脸图像进行下采样，以获取所述第八训练人脸图像。

通过对高分辨率的图像进行下采样，以获取神经网络模型训练时输入的低分辨率的图像，减小输入数据的数量，可以降低对输入数据的依赖。

结合第一方面，在一些可能的实现方式中，所述第一图像是接收的视频中的一帧图像。

接收的视频可能因为通信过程中信号传输速率的限制，分辨率较低。通过对接收的视频进行超分辨率处理，可以改善用户体验。

结合第一方面，在一些可能的实现方式中，所述第一图像是即时视频通讯过程中接收的视频中的一帧图像。

即时视频通讯通常仅与少数特定人进行。对于同一终端设备，需要建立的神经网络模型数量有限，保存神经网络模型的信息占用的资源较小。

结合第一方面，在一些可能的实现方式中，所述根据所述第二人脸图像和所述背景图像，确定第二图像，包括对所述第二人脸图像和所述背景图像进行融合，以确定所述第二图像。

第二方面，提供了一种图像处理的装置，包括获取模块，输入模块，确定模块。获取模块用于，获取第一图像，所述第一图像包括第一分辨率的第一人脸图像和所述第一人脸图像之外的背景图像。输入模块用于，将所述第一人脸图像输入特征提取模型，以获取所述第一人脸图像的第一人脸特征。确定模块用于，根据至少一个神经网络模型与至少一个人脸特征之间的一一对应关系，确定与所述第一人脸特征对应的第一神经网络模型，其中，所述第一人脸特征与所述第一神经网络模型对应的第二人脸特征之间的相似度在预设范围内，所述神经网络模型用于获取第二分辨率的图像，所述第二分辨率高于所述第一分辨率。输入模块还用于，将所述第一人脸图像输入所述第一神经网络模型，以获取第二分辨率的第二人脸图像。确定模块还用于，根据所述第二人脸图像和所述背景图像，确定第二图像。

结合第二方面，在一些可能的实现方式中，装置还包括调整模块。获取模块还用于，获取第三分辨率的第一训练人脸图像。输入模块用于，将所述第一训练人脸图像对应的第四分辨率的第二训练人脸图像输入第一原始模型，以获取第三分辨率的第三训练人脸图像，所述第三分辨率高于所述第四分辨率。调整模块用于，根据所述第一训练人脸图像和所述第三训练人脸图像调整所述第一原始模型的参数，以使所述第一训练人脸图像和所述第三训练人脸图像的相似度在第二预设范围内。调整后的所述第一原始模型为第二神经网络模型。获取模块还用于，获取所述第一训练人脸图像的第三人脸特征。确定模块还用于，确定所述第二神经网络模型与所述第三人脸特征的对应关系，所述第二神经网络是所述至少一个神经网络中的任一神经网络模型。

结合第二方面，在一些可能的实现方式中，装置还包括下采样模块，下采样模块用于对所述第一训练人脸图像进行下采样，以获取所述第二训练人脸图像。

结合第二方面，在一些可能的实现方式中，装置还包括调整模块。获取模块还用于，获取第五分辨率的第四训练人脸图像。输入模块还用于，将所述第四训练人脸图像对应的第六分辨率的第五训练人脸图像输入第二原始模型，以获取第五分辨率的第六训练人脸图像，所述第五分辨率高于所述第六分辨率。调整模块用于，根据所述第四训练人脸图像和所述第六训练人脸图像调整所述第二原始模型的参数，以使所述第四训练人脸图像和所述第六训练人脸图像的相似度在第三预设范围内。获取模块还用于，获取第七分辨率的第七训练人脸图像。输入模块还用于，将所述第七训练人脸图像对应的第八分辨率的第八训练人脸图像输入调整后的第二原始模型，以获取第七分辨率的第九训练人脸图像，所述第七分辨率高于所述第八分辨率。调整模块还用于，根据所述第七训练人脸图像和所述第九训练人脸图像调整所述第二原始模型的参数，以使所述第一训练人脸图像和所述第三训练人脸图像的相似度在第二预设范围内。第二次调整后的所述第一原始模型为第二神经网络模型。获取模块还用于，获取所述第七训练人脸图像的第四人脸特征。确定模块用于，确定所述第二神经网络模型与所述第四人脸特征的对应关系，所述第二神经网络是所述至少一个神经网络中的任一神经网络模型。

结合第二方面，在一些可能的实现方式中，所述第五分辨率与所述第六分辨率的比值为第一比值，与所述第七分辨率与所述第八分辨率的比值为第二比值；所述第一比值等于所述第二比值。

结合第二方面，在一些可能的实现方式中，装置还包括下采样模块，下采样模块用于对所述第七训练人脸图像进行下采样，以获取所述第八训练人脸图像。

结合第二方面，在一些可能的实现方式中，所述第一图像是接收的视频中的一帧图像。

第三方面，提供了一种图像处理的装置，包括存储器和处理器。存储器用于存储程序。当程序指令在所述处理器中执行时，处理器用于：获取第一图像，所述第一图像包括第一分辨率的第一人脸图像和所述第一人脸图像之外的背景图像；将所述第一人脸图像输入特征提取模型，以获取所述第一人脸图像的第一人脸特征；根据至少一个神经网络模型与至少一个人脸特征之间的一一对应关系，确定与所述第一人脸特征对应的第一神经网络模型，其中，所述第一人脸特征与所述第一神经网络模型对应的第二人脸特征之间的相似度在预设范围内，所述神经网络模型用于获取第二分辨率的图像，所述第二分辨率高于所述第一分辨率；将所述第一人脸图像输入所述第一神经网络模型，以获取第二分辨率的第二人脸图像；根据所述第二人脸图像和所述背景图像，确定第二图像。

结合第三方方面，在一些可能的实现方式中，所述处理器还用于：获取第三分辨率的第一训练人脸图像；将所述第一训练人脸图像对应的第四分辨率的第二训练人脸图像输入第一原始模型，以获取第三分辨率的第三训练人脸图像，所述第三分辨率高于所述第四分辨率；根据所述第一训练人脸图像和所述第三训练人脸图像调整所述第一原始模型的参数，以使所述第一训练人脸图像和所述第三训练人脸图像的相似度在第二预设范围内；将调整后的所述第一原始模型作为第二神经网络模型；获取所述第一训练人脸图像的第三人脸特征；确定所述第二神经网络模型与所述第三人脸特征的对应关系，所述第二神经网络是所述至少一个神经网络中的任一神经网络模型。

结合第三方方面，在一些可能的实现方式中，所述处理器还用于：对所述第一训练人脸图像进行下采样，以获取所述第二训练人脸图像。结合第三方方面，在一些可能的实现方式中，所述处理器还用于：获取第五分辨率的第四训练人脸图像；将所述第四训练人脸图像对应的第六分辨率的第五训练人脸图像输入第二原始模型，以获取第五分辨率的第六训练人脸图像，所述第五分辨率高于所述第六分辨率；根据所述第四训练人脸图像和所述第六训练人脸图像调整所述第二原始模型的参数，以使所述第四训练人脸图像和所述第六训练人脸图像的相似度在第三预设范围内；获取第七分辨率的第七训练人脸图像；将所述第七训练人脸图像对应的第八分辨率的第八训练人脸图像输入调整后的第二原始模型，以获取第七分辨率的第九训练人脸图像，所述第七分辨率高于所述第八分辨率；根据所述第七训练人脸图像和所述第九训练人脸图像调整所述第二原始模型的参数，以使所述第一训练人脸图像和所述第三训练人脸图像的相似度在第二预设范围内；将第二次调整后的所述第一原始模型作为第二神经网络模型；获取所述第七训练人脸图像的第四人脸特征；确定所述第二神经网络模型与所述第四人脸特征的对应关系，所述第二神经网络是所述至少一个神经网络中的任一神经网络模型。

结合第三方方面，在一些可能的实现方式中，所述第五分辨率与所述第六分辨率的比值为第一比值，与所述第七分辨率与所述第八分辨率的比值为第二比值；所述第一比值等于所述第二比值。

结合第三方方面，在一些可能的实现方式中，所述处理器还用于：对所述第七训练人脸图像进行下采样，以获取所述第八训练人脸图像。

结合第三方方面，在一些可能的实现方式中，所述第一图像是接收的视频中的一帧图像。

第四方面，提供一种计算机存储介质，当所述计算机指令在电子设备上运行时，使得所述电子设备执行第一方面所述的方法。

第五方面，提供一种芯片系统，所述芯片系统包括至少一个处理器，当程序指令在所述至少一个处理器中执行时，使得所述芯片系统执行第一方面所述的方法。

附图说明

图1是本申请实施例提供的一种系统架构。

图2本申请一个实施例提供的根据CNN模型进行图像处理的示意图。

图3是本申请一个实施例提供的一种芯片硬件结构示意图。

图4是一种电子设备的示意性结构图。

图5是本申请一个实施例提供的一种人脸检测模型的训练方法的示意性流程图。

图6是本申请一个实施例提供的一种人脸特征提取模型的训练方法的示意性流程图。

图7是本申请一个实施例提供的一种超分辨率模型的训练方法的示意性流程图。

图8是本申请一个实施例提供的一种图像处理的方法的示意性流程图。

图9是本申请另一个实施例提供的一种图像处理的方法的示意性流程图。

图10是本申请一个实施例提供的一种图像处理装置的示意性结构图。

图11是本申请另一个实施例提供的一种图像处理装置的示意性结构图。

图12是本申请一个实施例提供的一种神经网络模型的训练装置的示意性结构图。

图13是本申请又一个实施例提供的图像处理装置的示意性结构图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

本申请实施例提供的图像处理的方法能够应用在即时视频通讯、视频播放等领域。

超分辨率是图像处理领域中重要的研究任务之一。它是指利用一幅或者多幅低分辨率图像，通过相应的算法来获得一幅清晰的高分辨率图像。高分辨率意味着图像具有高像素密度，可以提供更多的细节，这些细节往往在应用中起到关键作用。要获得高分辨率图像，最直接的办法是采用高分辨率图像传感器，但由于传感器和光学器件制造工艺和成本的限制，在很多场合和大规模部署中很难实现的。

传统的压缩技术存在理论上的上界，而如果引入超分辨技术，压缩前首先缩小图像，减小图像的像素，之后再利用超分辨率技术还原图像，则可以进一步提高压缩率，这在手机、互联网、军事等场合低比特率传输以及高清电视和图像存贮方面都有着重要的市场前景。

随着智能手机的迅速发展，视频通讯逐渐成为人们日常交流的重要方式。视频聊天、视频会议等即时视频通讯的应用越来越广泛。

然而，在当前网络通信状况下，即时视频通讯受到通信带宽的限制，视频通话过程中可能画质不清晰，对人们的使用带来不好的体验。目前，一般通过提升视频编码的压缩率、动态调整视频的帧率等手段改善通话视频的清晰度，但是效果有限。

目前，一种改善通话视频清晰度的方法，是采用帧率动态调整技术。

采用帧率动态调整技术，视频发送端设备检测发送端设备和接收端设备之间的网络传输速度，根据网络传输速度调整视频图像的帧率。发送端设备检测视频图像的清晰度，根据调整后的帧率从视频图像中选取清晰度大于某一清晰度阈值的图像构成视频，向接收端设备发送视频。该技术的核心在于根据网络通信状况动态调整视频帧率，从而保证视频画质。

采用该技术，视频帧率得不到保证，且帧间隔可能不相等，在某两个连续的帧之间可能时间间隔较大，导致画面出现卡顿。另外，从视频图像中选取图像构成视频，无法解决视频画质不清晰的问题。

另一种改善通话视频清晰度的方法，是采用主体高清晰度采集技术。

视频图像中的背景部分往往并不重要，而视频图像中主体部分的清晰度对用户体验的影响较大。采用主体高清晰度采集技术，根据当前网络速率，可以动态调整主体子数据和背景子数据的采集比例。网络状况不好时，可以减少对背景子数据的采集。但是由于传输速度的限制，主体子数据的对应的图像清晰度依然很难满足需求。

人脸区域一般是视频中较为重要的区域，特别是图像中的人脸区域。由此，本申请针对视频通话中人脸模糊的问题，对人脸区域进行超分辨率处理。通过分析视频通话场景的特殊性，利用本地存储的有关对方的图片视频等素材进行补偿，从而得到高清晰的人脸图像。

为了便于理解，下面先对本申请实施例涉及的相关术语及神经网络等相关概念进行介绍。

(1)神经网络

神经网络可以是由神经单元组成的，神经单元可以是指以x_s和截距b为输入的运算单元，该运算单元的输出可以为：

其中，s＝1、2、……n，n为大于1的自然数，W_s为x_s的权重，b为神经单元的偏置。f为神经单元的激活函数(activation functions)，用于将非线性特性引入神经网络中，来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入。激活函数可以是sigmoid函数。神经网络是将许多个上述单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

(2)深度神经网络

深度神经网络(deep neural network，DNN)，也称多层神经网络，可以理解为具有很多层隐含层的神经网络，这里的“很多”并没有特别的度量标准。从DNN按不同层的位置划分，DNN内部的神经网络可以分为三类：输入层，隐含层，输出层。一般来说第一层是输入层，最后一层是输出层，中间的层数都是隐含层。例如，全连接神经网络中层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。虽然DNN看起来很复杂，但是就每一层的工作来说，其实并不复杂，简单来说就是如下线性关系表达式：

其中，

是输入向量，

是输出向量，

是偏移向量，W是权重矩阵(也称系数)，α()是激活函数。每一层仅仅是对输入向量

经过如此简单的操作得到输出向量

由于DNN层数多，则系数W和偏移向量

的数量也就很多了。这些参数在DNN中的定义如下所述：以系数W为例：假设在一个三层的DNN中，第二层的第4个神经元到第三层的第2个神经元的线性系数定义为

上标3代表系数W所在的层数，而下标对应的是输出的第三层索引2和输入的第二层索引4。总结就是：第L-1层的第k个神经元到第L层的第j个神经元的系数定义为

需要注意的是，输入层是没有W参数的。在深度神经网络中，更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言，参数越多的模型复杂度越高，“容量”也就越大，也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程，其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。

(3)卷积神经网络

卷积神经网络(convolutional neuron network，CNN)是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。该特征抽取器可以看作是滤波器，卷积过程可以看作是使用一个可训练的滤波器与一个输入的图像或者卷积特征平面(feature map)做卷积。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中，一个神经元可以只与部分邻层神经元连接。一个卷积层中，通常包含若干个特征平面，每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重，这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。这其中隐含的原理是：图像的某一部分的统计信息与其他部分是一样的。即意味着在某一部分学习的图像信息也能用在另一部分上。所以对于图像上的所有位置，都能使用同样的学习得到的图像信息。在同一卷积层中，可以使用多个卷积核来提取不同的图像信息，一般地，卷积核数量越多，卷积操作反映的图像信息越丰富。

卷积核可以以随机大小的矩阵的形式初始化，在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外，共享权重带来的直接好处是减少卷积神经网络各层之间的连接，同时又降低了过拟合的风险。

(4)循环神经网络(recurrent neural networks，RNN)是用来处理序列数据的。在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，而对于每一层层内之间的各个节点是无连接的。这种普通的神经网络虽然解决了很多难题，但是却仍然对很多问题却无能无力。例如，你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。RNN之所以称为循环神经网路，即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中，即隐含层本层之间的节点不再无连接而是有连接的，并且隐含层的输入不仅包括输入层的输出还包括上一时刻隐含层的输出。理论上，RNN能够对任何长度的序列数据进行处理。对于RNN的训练和对传统的CNN或DNN的训练一样。同样使用误差反向传播算法，不过有一点区别：即，如果将RNN进行网络展开，那么其中的参数，如W，是共享的；而如上举例上述的传统神经网络却不是这样。并且在使用梯度下降算法中，每一步的输出不仅依赖当前步的网络，还依赖前面若干步网络的状态。该学习算法称为基于时间的反向传播算法(back propagation through time，BPTT)。

既然已经有了卷积神经网络，为什么还要循环神经网络？原因很简单，在卷积神经网络中，有一个前提假设是：元素之间是相互独立的，输入与输出也是独立的，比如猫和狗。但现实世界中，很多元素都是相互连接的，比如股票随时间的变化，再比如一个人说了：我喜欢旅游，其中最喜欢的地方是云南，以后有机会一定要去。这里填空，人类应该都知道是填“云南”。因为人类会根据上下文的内容进行推断，但如何让机器做到这一步？RNN就应运而生了。RNN旨在让机器像人一样拥有记忆的能力。因此，RNN的输出就需要依赖当前的输入信息和历史的记忆信息。

(5)损失函数

在训练深度神经网络的过程中，因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断的调整，直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。

(6)残差网络

在不断加神经网络的深度时，会出现退化的问题，即随着神经网络深度的增加，准确率先上升，然后达到饱和，再持续增加深度则会导致准确率下降。普通直连的卷积神经网络和残差网络(residual network，ResNet)的最大区别在于，ResNet有很多旁路的支线将输入直接连到后面的层，通过直接将输入信息绕道传到输出，保护信息的完整性，解决退化的问题。残差网络包括卷积层和/或池化层。

残差网络可以是：深度神经网络中多个隐含层之间除了逐层相连之外，例如第1层隐含层连接第2层隐含层，第2层隐含层连接第3层隐含层，第3层隐含层连接第4层隐含层(这是一条神经网络的数据运算通路，也可以形象的称为神经网络传输)，残差网络还多了一条直连支路，这条直连支路从第1层隐含层直接连到第4层隐含层，即跳过第2层和第3层隐含层的处理，将第1层隐含层的数据直接传输给第4层隐含层进行运算。公路网络可以是：深度神经网络中除了有上面所述的运算通路和直连分支之外，还包括一条权重获取分支，这条支路引入传输门(transform gate)进行权重值的获取，并输出权重值T供上面的运算通路和直连分支后续的运算使用。

(7)反向传播算法

卷积神经网络可以采用误差反向传播(back propagation，BP)算法在训练过程中修正初始的超分辨率模型中参数的大小，使得超分辨率模型的重建误差损失越来越小。具体地，前向传递输入信号直至输出会产生误差损失，通过反向传播误差损失信息来更新初始的超分辨率模型中参数，从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动，旨在得到最优的超分辨率模型的参数，例如权重矩阵。

(8)生成式对抗网络

生成式对抗网络(generative adversarial networks，GAN)是一种深度学习模型。该模型中至少包括两个模块：一个模块是生成模型(generative model)，另一个模块是判别模型(discriminative model)，通过这两个模块互相博弈学习，从而产生更好的输出。生成模型和判别模型都可以是神经网络，具体可以是深度神经网络，或者卷积神经网络。GAN的基本原理如下：以生成图片的GAN为例，假设有两个网络，G(generator)和D(discriminator)，其中G是一个生成图片的网络，它接收一个随机的噪声z，通过这个噪声生成图片，记做G(z)；D是一个判别网络，用于判别一张图片是不是“真实的”。它的输入参数是x，x代表一张图片，输出D(x)代表x为真实图片的概率，如果为1，就代表100％是真实的图片，如果为0，就代表不可能是真实的图片。在对该生成式对抗网络进行训练的过程中，生成网络G的目标就是尽可能生成真实的图片去欺骗判别网络D，而判别网络D的目标就是尽量把G生成的图片和真实的图片区分开来。这样，G和D就构成了一个动态的“博弈”过程，也即“生成式对抗网络”中的“对抗”。最后博弈的结果，在理想的状态下，G可以生成足以“以假乱真”的图片G(z)，而D难以判定G生成的图片究竟是不是真实的，即D(G(z))＝0.5。这样就得到了一个优异的生成模型G，它可以用来生成图片。

(9)像素值

图像的像素值可以是一个红绿蓝(RGB)颜色值，像素值可以是表示颜色的长整数。例如，像素值为256*Red+100*Green+76Blue，其中，Blue代表蓝色分量，Green代表绿色分量，Red代表红色分量。各个颜色分量中，数值越小，亮度越低，数值越大，亮度越高。对于灰度图像来说，像素值可以是灰度值。

(10)分辨率

分辨率，又称解析度、解像度。本申请实施例中的分辨率是指图片分辨率。通常情况下，图像的分辨率越高，所包含的像素就越多，图像就越清晰。同时，分辨率越高的图片也会占用较多的存储空间。

图1是如图1所示，本申请实施例提供了一种系统架构100。在图1中，数据采集设备160用于采集训练数据，本申请实施例中训练数据包括高清晰度图片等。训练数据还可以包括与高清晰度图片对应的低清晰度图片。

在采集到训练数据之后，数据采集设备160将这些训练数据存入数据库130，训练设备120基于数据库130中维护的训练数据训练得到目标模型/规则101。

下面对训练设备120基于训练数据得到目标模型/规则101进行描述。本申请实施例中，目标模型/规则101包括人脸超分辨率模型，人脸检测模型，人脸特征提取模型等。

上述目标模型/规则101能够用于实现本申请实施例的图像处理方法，即，将低清晰度的图片通过相关预处理后输入该目标模型/规则101，即可得到高清晰度的图片。本申请实施例中的目标模型/规则101具体可以为GAN。需要说明的是，在实际的应用中，所述数据库130中维护的训练数据不一定都来自于数据采集设备160的采集，也有可能是从其他设备接收得到的。另外需要说明的是，训练设备120也不一定完全基于数据库130维护的训练数据进行目标模型/规则101的训练，也有可能从云端或其他地方获取训练数据进行模型训练，上述描述不应该作为对本申请实施例的限定。

根据训练设备120训练得到的目标模型/规则101可以应用于不同的系统或设备中，如应用于图1所示的执行设备110，所述执行设备110可以是终端，如手机终端，平板电脑，笔记本电脑，AR/VR，车载终端等，还可以是服务器或者云端设备等。在附图1中，执行设备110配置有I/O接口112，用于与外部设备进行数据交互，用户可以通过客户设备140向I/O接口112输入数据。

预处理模块113和预处理模块114用于根据I/O接口112接收到的输入数据(如待处理图像)进行预处理。例如，可以对高清晰度图片进行预处理，以得到其对应的低清晰度图片。在本申请实施例中，也可以没有预处理模块113和预处理模块114(也可以只有其中的一个预处理模块)，而直接采用计算模块111对输入数据进行处理。

在执行设备110对输入数据进行预处理，或者在执行设备110的计算模块111执行计算等相关的处理过程中，执行设备110可以调用数据存储系统150中的数据、代码等以用于相应的处理，也可以将相应处理得到的数据、指令等存入数据存储系统150中。

最后，I/O接口112可以将处理结果，如上述经过神经网络模型处理得到的高清晰度图片返回给客户设备140，从而提供给用户。

需要说明的是，训练设备120可以针对不同的目标或称不同的任务，基于不同的训练数据生成相应的目标模型/规则101，该相应的目标模型/规则101即可以用于实现上述目标或完成上述任务，从而为用户提供所需的结果。

在附图1中所示情况下，用户可以手动给定输入数据，该手动给定可以通过I/O接口112提供的界面进行操作。另一种情况下，客户设备140可以自动地向I/O接口112发送输入数据，如果要求客户设备140自动发送输入数据需要获得用户的授权，则用户可以在客户设备140中设置相应权限。用户可以在客户设备140查看执行设备110输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式。客户设备140也可以作为数据采集端，采集如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果作为新的样本数据，并存入数据库130。当然，也可以不经过客户设备140进行采集，而是由I/O接口112直接将如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果，作为新的样本数据存入数据库130。

值得注意的是，附图1仅是本发明实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在附图1中，数据存储系统150相对执行设备110是外部存储器，在其它情况下，也可以将数据存储系统150置于执行设备110中。

如图1所示，根据训练设备120训练得到目标模型/规则101，该目标模型/规则101在本申请实施例中可以是CNN，深度卷积神经网络(deep convolutional neuralnetworks,DCNN)，区域卷积神经网络(region-based CNN或regions with CNN，RCNN)，多任务卷积神经网络(Multi-task convolutional neural network，MTCNN)，GAN，超分辨率生成对抗网络(super-resolution generative adversarial networks，SRGAN)，增强型超分辨率生成对抗网络(enhanced super-resolution generative adversarial networks，ESRGAN)等等。

卷积神经网络是一种带有卷积结构的深度神经网络，下面结合图2重点对CNN的结构进行详细的介绍。卷积神经网络是一种深度学习(deep learning)架构，深度学习架构是指通过机器学习的算法，在不同的抽象层级上进行多个层次的学习。作为一种深度学习架构，CNN是一种前馈(feed-forward)人工神经网络，该前馈人工神经网络中的各个神经元可以对输入其中的图像作出响应。

如图2所示，卷积神经网络(CNN)200可以包括输入层210，卷积层/池化层220(其中池化层为可选的)，以及神经网络层230。下面对这些层的相关内容做详细介绍。

卷积层/池化层220：

卷积层：

如图2所示卷积层/池化层220可以包括如示例221-226层，举例来说：在一种实现中，221层为卷积层，222层为池化层，223层为卷积层，224层为池化层，225为卷积层，226为池化层；在另一种实现方式中，221、222为卷积层，223为池化层，224、225为卷积层，226为池化层。即卷积层的输出可以作为随后的池化层的输入，也可以作为另一个卷积层的输入以继续进行卷积操作。

下面将以卷积层221为例，介绍一层卷积层的内部工作原理。

卷积层221可以包括很多个卷积算子，卷积算子也称为核，其在图像处理中的作用相当于一个从输入图像矩阵中提取特定信息的过滤器，卷积算子本质上可以是一个权重矩阵，这个权重矩阵通常被预先定义，在对图像进行卷积操作的过程中，权重矩阵通常在输入图像上沿着水平方向一个像素接着一个像素(或两个像素接着两个像素……取决于步长stride的取值)的进行处理，从而完成从图像中提取特定特征的工作。该权重矩阵的大小应该与图像的大小相关，

需要注意的是，权重矩阵的纵深维度(depth dimension)和输入图像的纵深维度是相同的，在进行卷积运算的过程中，权重矩阵会延伸到输入图像的整个深度。因此，和一个单一的权重矩阵进行卷积会产生一个单一纵深维度的卷积化输出，但是大多数情况下不使用单一权重矩阵，而是应用多个尺寸(行×列)相同的权重矩阵，即多个同型矩阵。每个权重矩阵的输出被堆叠起来形成卷积图像的纵深维度，这里的维度可以理解为由上面所述的“多个”来决定。

不同的权重矩阵可以用来提取图像中不同的特征，例如，一个权重矩阵可以用来提取图像边缘信息，另一个权重矩阵用来提取图像的特定颜色，又一个权重矩阵用来对图像中不需要的噪声进行模糊化等。该多个权重矩阵尺寸(行×列)相同，经过该多个尺寸相同的权重矩阵提取后的特征图的尺寸也相同，再将提取到的多个尺寸相同的特征图合并形成卷积运算的输出。

这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到，通过训练得到的权重值形成的各个权重矩阵可以用来从输入图像中提取信息，从而使得卷积神经网络200进行正确的预测。

当卷积神经网络200有多个卷积层的时候，初始的卷积层(例如221)往往提取较多的一般特征，该一般特征也可以称之为低级别的特征；随着卷积神经网络200深度的加深，越往后的卷积层(例如226)提取到的特征越来越复杂，比如高级别的语义之类的特征，语义越高的特征越适用于待解决的问题。

池化层：

由于常常需要减少训练参数的数量，因此，卷积层之后常常需要周期性的引入池化层，在如图2中220所示例的221-226各层，可以是一层卷积层后面跟一层池化层，也可以是多层卷积层后面接一层或多层池化层。在图像处理过程中，池化层的唯一目的就是减少图像的空间大小。池化层可以包括平均池化算子和/或最大池化算子，以用于对输入图像进行采样得到较小尺寸的图像。平均池化算子可以在特定范围内对图像中的像素值进行计算产生平均值作为平均池化的结果。最大池化算子可以在特定范围内取该范围内值最大的像素作为最大池化的结果。另外，就像卷积层中用权重矩阵的大小应该与图像尺寸相关一样，池化层中的运算符也应该与图像的大小相关。通过池化层处理后输出的图像尺寸可以小于输入池化层的图像的尺寸，池化层输出的图像中每个像素点表示输入池化层的图像的对应子区域的平均值或最大值。

神经网络层230：

在经过卷积层/池化层220的处理后，卷积神经网络200还不足以输出所需要的输出信息。因为如前所述，卷积层/池化层220只会提取特征，并减少输入图像带来的参数。然而为了生成最终的输出信息(所需要的类信息或其他相关信息)，卷积神经网络200需要利用神经网络层230来生成一个或者一组所需要的类的数量的输出。因此，在神经网络层230中可以包括多层隐含层(如图2所示的231、232至23n)以及输出层240，该多层隐含层中所包含的参数可以根据具体的任务类型的相关训练数据进行预先训练得到，例如该任务类型可以包括图像识别，图像分类，图像超分辨率重建等等。

在神经网络层230中的多层隐含层之后，也就是整个卷积神经网络200的最后层为输出层240，该输出层240具有类似分类交叉熵的损失函数，具体用于计算预测误差，一旦整个卷积神经网络200的前向传播(如图2由210至240方向的传播为前向传播)完成，反向传播(如图2由240至210方向的传播为反向传播)就会开始更新前面提到的各层的权重值以及偏差，以减少卷积神经网络200的损失，及卷积神经网络200通过输出层输出的结果和理想结果之间的误差。

需要说明的是，如图2所示的卷积神经网络200仅作为一种卷积神经网络的示例，在具体的应用中，卷积神经网络还可以以其他网络模型的形式存在。

图3为本申请实施例提供的一种芯片硬件结构，该芯片包括神经网络处理器(neural-network processing unit)30。该芯片可以被设置在如图1所示的执行设备110中，用以完成计算模块111的计算工作。该芯片也可以被设置在如图1所示的训练设备120中，用以完成训练设备120的训练工作并输出目标模型/规则101。如图2所示的卷积神经网络中各层的算法均可在如图3所示的芯片中得以实现。

神经网络处理器(neural processing unit，NPU)50作为协处理器挂载到主中央处理器(central processing unit，CPU)上，由主CPU分配任务。NPU的核心部分为运算电路303，控制器304控制运算电路303提取权重存储器302或者输入存储器301中的数据并进行运算。

在一些实现中，运算电路303内部包括多个处理单元(process engine,PE)。在一些实现中，运算电路303可以是二维脉动阵列。运算电路303还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。

在一些实现中，运算电路303是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路303从权重存储器302中取矩阵B相应的数据，并缓存在运算电路中每一个PE上。运算电路303从输入存储器301中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器(accumulator)308中。

向量计算单元307可以对运算电路303的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。例如，向量计算单元307可以用于神经网络中非卷积/非FC层的网络计算，如池化(pooling)，批归一化(batch normalization)，局部响应归一化(local response normalization)等。

在一些实现种，向量计算单元能307将经处理的输出的向量存储到统一缓存器306。例如，向量计算单元307可以将非线性函数应用到运算电路303的输出，例如，累加值的向量，用以生成激活值。

在一些实现中，向量计算单元307生成归一化的值、合并值，或二者均有。

在一些实现中，处理过的输出的向量能够用作到运算电路303的激活输入，例如，用于在神经网络中的后续层中的使用。

统一存储器306用于存放输入数据以及输出数据。

权重数据直接通过存储单元访问控制器(direct memory access controller，DMAC)305将外部存储器中的输入数据搬运到输入存储器301和/或统一存储器306、将外部存储器中的权重数据存入权重存储器302，以及将统一存储器306中的数据存入外部存储器。

总线接口单元(bus interface unit，BIU)310，用于通过总线实现主CPU、DMAC和取指存储器309之间进行交互。

与控制器304连接的取指存储器(instruction fetch buffer)309，用于存储控制器504使用的指令；控制器304，用于调用指存储器309中缓存的指令，实现控制该运算加速器的工作过程。

一般地，统一存储器306，输入存储器301，权重存储器302以及取指存储器309均为片上(On-Chip)存储器，外部存储器为该NPU外部的存储器，该外部存储器可以为双倍数据率同步动态随机存储器(double data rate synchronous dynamic random accessmemory，DDR SDRAM)、高带宽存储器(high bandwidth memory，HBM)或其他可读可写的存储器。

其中，图2所示的卷积神经网络中各层的运算可以由运算电路303或向量计算单元307执行。

上文中介绍的图1中的执行设备110能够执行本申请实施例的图像显示方法的各个步骤，具体地，图2所示的CNN模型和图3所示的芯片也可以用于执行本申请实施例的图像显示方法的各个步骤。

应理解，在本申请的各实施例中，“第一”、“第二”、“第三”等仅是为了指代不同的对象，并不表示对指代的对象有其它限定。

图4是一种电子设备400的结构性示意图。可以是终端设备。

电子设备100可以包括处理器410，内部存储器421，外部存储器接口422，摄像头430，显示屏440，通信模块450，传感器模块460等。

可以理解的是，本发明实施例示意的结构并不构成对电子设备400的具体限定。在本申请另一些实施例中，电子设备400可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器410可以包括一个或多个处理单元，例如：处理器410可以包括中央处理器(center processing unit，CPU)，应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processing unit，GPU)，图像信号处理器(image signalprocessor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

电子设备400的无线通信功能可以通过天线和通信模块450等实现。天线用于发射和接收电磁波信号。通信模块450可以提供应用在电子设备400上的无线通信的解决方案。在一些实施例中，通信模块450的至少部分功能模块可以被设置于处理器410中。在一些实施例中，通信模块450的至少部分功能模块可以与处理器410的至少部分模块被设置在同一个器件中。

电子设备400通过GPU，显示屏440，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏440和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器410可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。在一些实施例中，电子设备400可以包括1个或N个显示屏194，N为大于1的正整数。

电子设备400可以通过ISP，摄像头430，视频编解码器，GPU，显示屏440以及应用处理器等实现拍摄功能。

ISP用于处理摄像头430反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头430中。

摄像头430用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备400可以包括1个或N个摄像头430，N为大于1的正整数。例如，电子设备400可以包括双目系统。双目系统可以包括两个摄像头。双目系统中的两个摄像头均可以用于采集图像数据。也就是说，双目系统中的两个摄像头均可以用于捕获静态图像或视频。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备400在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备400的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口422可以用于连接外部存储卡，扩展电子设备400的存储能力。外部存储卡通过外部存储器接口422与处理器410通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器421可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器421可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备400使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器421可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。处理器410通过运行存储在内部存储器421的指令，和/或存储在设置于处理器中的存储器的指令，执行电子设备400的各种功能应用以及数据处理。

下面结合图5-图7，对本申请实施例提供的模型训练的方法进行说明。

方法500、方法600、方法700具体可以由如图1所示的训练设备120执行。

可选的，所述方法500、方法600、方法700可以在训练设备120中执行，也可以在训练设备120之前由其他功能模块预先执行。

可选的，所述方法500、方法600、方法700可以由CPU处理，可以由NPU处理，也可以由CPU和图像处理器(graphics processing unit，GPU)共同处理，也可以不用GPU，而使用其他适合用于神经网络计算的处理器，本申请不做限制。

训练设备120具体可以用于训练本申请实施例提供的人脸检测模型、人脸特征提取模型、超分辨率模型中的一个或多个。

图5是本申请实施例提供的一种人脸检测模型的训练方法500。

视频通话中人脸情况较为复杂，受环境光、距离以及对方的姿态等因素影响。可以通过人脸检测模型对图像中对否存在人脸图像进行检测。

在步骤S501，获取训练图像以及人脸位置指示信息。

人脸位置指示信息用于指示训练图像种是否存在人脸图像，以及，存在人脸图像情况下的人脸图像位置。人脸图像的位置可以用过矩形框或圆形框等形状表示。可以通过训练图像中的坐标表示人脸图像的位置。以矩形框为例，人脸位置指示信息可以是四维向量A(x,y,w,h)，其中，x、y分别表示矩形框对角线交叉点或矩形框某一个顶点例如左上角顶点的横坐标和纵坐标，w、h分别表示矩形框的宽和高。该矩形框也可以称为回归框。如果训练图像中不存在人脸图像，该四维向量的参数x、y、w、h均为“0”。

训练图像可以是终端设备存储的图像，也可以是对存储的图像进行放缩，从而获取的图像。通过对图像的放缩，可以增加用于训练神经网络模型的训练图像的数量，从而提高训练得到的神经网络的准确性。例如，将照片、以及视频中单帧图像数据按一个缩放因子缩放，得到一组不同尺寸的图像金字塔，缩放因子例如可以为1.2。

在步骤S502，将训练图像输入第三原始模型，第三原始模型可以是CNN模型。

在步骤S503，获取第三原始模型输出的训练位置信息，训练位置信息是神经网络的处理结果，用于指示人脸图像在训练图像中的位置。

在步骤S504，根据人脸位置指示信息，以及训练位置信息，对第三原始模型的参数进行调整，以使得人脸位置指示信息与训练位置信息的相似度满足预设值。

调整后的第三原始模型可以作为人脸检测模型。

人脸检测模型可以包括多任务卷积神经网络(multi-task convolutionalneural network，MTCNN)模型中的全部或部分。MTCNN包括三个子模型：人脸分类模型、人脸框回归模型以及人脸关键点定位模型。每个子模型均为CNN模型。人脸分类模型输出两个值，分别为人脸的概率和非人脸的概率。人脸框回归模型输出一个四维向量，为人脸区域的左上角坐标和宽高。人脸关键点定位模型输出一个十维向量，分别是左眼、右眼、鼻子、左嘴、右嘴的坐标。第三原始模型可以包括MTCNN中的人脸分类模型和人脸框回归模型。第三原始模型还可以包括人脸关键点定位模型。

通过步骤S501-S504，建立了人脸检测模型。能够对图像中的人脸进行检测。

图6是本申请实施例提供的一种人脸特征提取模型的训练方法。

在步骤S601，获取人脸图像和人脸图像对应的人脸特征向量。

在步骤S602，将人脸图像输入第二原始模型，以获取经训练向量。训练向量是第二原始模型的输出。

在步骤S603，根据训练向量和人脸特征向量，对第二原始模型的参数进行调整，使得训练向量和人脸特征向量的近似度满足预设值。

调整后的第二原始模型即为人脸特征提取模型。

人脸特征提取模型可以是CNN，例如可以是深度卷积神经网络。

图7是本申请实施例提供的一种神经网络模型的训练方法。该神经网络模型也可以称为超分辨率模型或人脸超分辨率模型。

在步骤S701，获取第三分辨率的第一训练人脸图像。

在步骤S701，还可以获取第一训练人脸图像对应的第四分辨率的第二训练人脸图像。第三分辨率高于第四分辨率。

或者，在步骤S702之前，可以对所述第一训练人脸图像进行下采样，以获取所述第二训练人脸图像。例如，可以进行整数倍下采样，例如4倍下采样，从而得到分辨率较低的第二训练人脸图像。在进行下采样之前，可以对第一训练人脸图像进行高斯模糊，以降低细节层次。高斯模糊对于图像来说就是一个低通滤波器。

在步骤S702，将所述第一训练人脸图像对应的第四分辨率的第二训练人脸图像输入第一原始模型，以获取第三分辨率的第三训练人脸图像。第一原始模型对低分辨率的第二训练人脸图像进行处理，输出高分辨率的第三训练人脸图像。

在步骤S703，根据所述第一训练人脸图像和所述第三训练人脸图像调整所述第一原始模型的参数，以使所述第一训练人脸图像和所述第三训练人脸图像的相似度在第二预设范围内。

在步骤S704，将调整后的所述第一原始模型作为第二神经网络模型。第二神经网络模型也可以称为超分辨率模型。

上述步骤可以是针对具有特定的人脸特征的图像进行的。具有特定的人脸特征的图像，可以理解为，该图像中的人是一个特定的人。也就是说，对于每一个特定的人，可以建立一个超分辨率模型。

对于不同的人，人脸的特征不同，如果采用同一的超分辨率处理方式，或者通过同一个神经网络模型进行超分辨率处理，那么在超分辨率处理的过程中，增加的人脸的特征与特定的人的可能并不相符。而通过训练过程中对特定的人的图像进行超分辨率处理，可以获得对特定的人建立的神经网络模型。使用该神经网络生成的超分辨率的图像，可以反应该特定的人的个性化的细节。

在此之后，可以将第二神经网络模型发送至图像处理的设备。第一训练人脸图像可以是图像处理的设备发送的。图像处理的设备可以保存有第一训练人脸图像对应的第三人脸特征。图像处理的设备可以根据保存的第三人脸特征，以及接收的第二神经网络模型，保存第二神经网络模型与第三人脸特征的对应关系。

或者，在步骤S704之后，可以进行步骤S705-S706。

在步骤S705，获取所述第一训练人脸图像的第三人脸特征。可以通过方法600获取的人脸特征提取模型，提取第三人脸特征。也可以接收其他设备发送的第三人脸特征。

在步骤S706，确定第二神经网络模型与所述第三人脸特征的对应关系。可以将第二神经网络模型与第三人脸特征的对应关系发送至进行图像处理的设备。在确定该对应关系之后，可以将该对应关系保存。

特定的人的图像，可以是进行神经网络模型训练或进行图像处理的电子设备中存储的图像。由于存储的图像数量较少，神经网络的训练可能出现过拟合的现象。为了避免过拟合的问题，在步骤S701之前，可以对第一原始模型进行预训练。

在步骤S701之前，获取第五分辨率的第四训练人脸图像。第四训练人脸图像是任何人的人脸图像。

可以对第四训练人脸图像进行下采样，以获取第六分辨率的第五训练人脸图像。第六分辨率低于第五分辨率。或者，也可以接收其他设备发送的第六分辨率的第五训练人脸图像。

将所述第四训练人脸图像对应的第六分辨率的第五训练人脸图像输入第二原始模型，以获取第五分辨率的第六训练人脸图像。

根据所述第四训练人脸图像和所述第六训练人脸图像调整所述第一原始模型的参数，以使所述第四训练人脸图像和所述第六训练人脸图像的相似度在第三预设范围内。

这样就完成了对第一原始模型的预训练。之后，进行步骤S701-S704，根据对应于特定的人脸特征向量的图像，进一步对第一原始模型的参数进行调整，从而得到对应于特定的人的神经网络模型。

应当理解，一组图像包括分辨率为固定倍数关系的两张对应的图像。根据这样的多组图像对神经网络模型进行训练，将低分辨率的图像输入神经网络，将神经网络的输出结果与高分辨率的图像进行比较，调整神经网络模型的参数以使得两者的差异最小。使用训练得到的神经网络模型对图像进行处理，输出的图像的分辨率与输入的图像的分辨率为该固定倍数的关系。

或者，可以将相同分辨率的图像作为原始图像数据。对同一分辨率的图像进行不同倍数下采样以获取不同分辨率的图像。将这些不同分辨率的图像中的一张或多张分别作为神经网络模型，将神经网络模型的输出与原始的高分辨率图像进行比较，调整神经网络模型的参数以使得两者的差异最小。使用训练得到的神经网络模型对图像进行处理，输出的图像的分辨率可以为固定值。

第二神经网络模型可以是GAN，例如可以是SRGAN、ESRGAN等。SRGAN在GAN网络使用残差块和感知损失优化对基础模型进行构建。ESRGAN是对SRGAN的改进，具体结构参见《ESRGAN:Enhanced Super-Resolution Generative Adversarial Networks》(Wang X,YuK,Wu S,et al.2018.)。

图8是本申请实施例提供的一种图像处理的方法。

在步骤S801，获取第一图像。

第一图像可以是存储或接收的一张图像，也可以是存储或接收的视频中的一帧图像。例如，第一图像可以是即使视频通信中的一帧图像。

第一图像可以包括第一分辨率的第一人脸图像和第一人脸图像之外的背景图像。或者，第一图像可以仅仅包括背景图像，不包括人脸图像。

在步骤S802之前，可以对第一图像进行人脸检测。可以将第一图像输入根据方法500得到的人脸检测模型，人脸检测模型输出对应于第一图像的人脸位置指示信息。

人脸位置指示信息可以用于指示第一图像中的人脸位置。人脸位置指示信息还可以用于指示第一图像中是否存在人脸。或者，可以通过其他信息对第一图像中是否存在人脸进行指示。

根据第一图像和其对应的人脸位置指示信息，可以确定第一人脸图像，以及第一人脸图像之外的背景图像。

如果第一图像中存在人脸，进行步骤S803-S806。如果第一图像中不包括人脸，可以结束处理，或者获取下一图像。

在步骤S802，将所述第一人脸图像输入特征提取模型，以获取所述第一人脸图像的第一人脸特征。

特征提取模型可以用于人脸特征的提取。特征提取模型可以是通过方法600获取的模型。

在步骤S803，根据至少一个神经网络模型与至少一个人脸特征之间的一一对应关系，确定与第一人脸特征对应的第一神经网络模型，其中，所述第一人脸特征与所述第一神经网络模型对应的第二人脸特征之间的相似度在预设范围内。

神经网络模型用于获取第二分辨率的图像，所述第二分辨率高于所述第一分辨率。

至少一个神经网络模型中的每一个神经网络模型可以是通过方法700获得的。第二神经网络模型可以是至少一个神经网络模型中的任一神经网络模型。

将第一人脸特征与保存的至少一个人脸特征进行匹配。如果匹配成功，即存在与第一人脸特征对应的第一神经网络模型，则进行步骤S804。如果匹配失败，可以不再进行步骤S804-S805，可以将该图片进行显示，或进行其他处理。

在步骤S804，将所述第一人脸图像输入所述第一神经网络模型，以获取第二分辨率的第二人脸图像。

第一神经网络模型可以是通过方法700获得的。第一神经网络模型用于实现图像的超分辨率，即提高图像的分辨率。

在步骤S805，根据第二人脸图像和背景图像，确定第二图像。

可以将第二人脸图像和背景图像进行拼接。或者，也已将第二人脸图像和背景图像进行融合。可以通过泊松融合、拉普拉斯融合等融合算法进行第二人脸图像和背景图像的融合。

通过步骤S801-S805，可以提高第一图像中的人脸图像的分辨率，并且，能够体现出人的个性化的特征，超分辨率图像与特定的人的特点更加符合。

如果第一人脸特征与保存的至少一个人脸特征进行匹配，匹配失败，可以通过方法700，获取第一人脸特征对应的第一神经网络模型。

图9是本申请实施例提供的一种图像处理的方法。

在步骤S901，在视频通话中，首先从送显缓冲区(buffer)中获取单帧视频数据。单帧视频数据即图像数据。

送显缓冲区也可以称为显示缓冲区。显示缓冲区用于保存需要显示屏显示的数据。在将视频数据传输至显示屏显示之前，采用本申请实施例提供的方法对视频中的每一帧图像进行处理。该视频可以是进行即时视频通讯接收的视频。

在步骤S902，对该单帧视频数据做人脸检测。

人脸检测处理需要在手机端完成。视频通话中人脸情况较为复杂，受环境光、距离以及对方的姿态等因素影响。通过人脸识别算法进行人脸识别，需要考虑上述因素。

人脸检测也可以通过神经网络进行。本申请实施例可以采用MTCNN网络进行人脸检测。MTCNN网络可以包括两个子网络，人脸分类网络和人脸框回归网络。

人脸分类网络可以用于判断图像中是否存在人脸。例如，人脸分类网络可以输出图像中存在人脸的概率。若图像中存在人脸的概率大于预设值，则确定图像中存在人脸。人脸分类网络还可以输出图像中不存在人脸的概率。

如果确定图像中不存在人脸，可以将该图像发送至显示器显示。如果确定图像中存在人脸，则对人脸进行超分辨率处理，从而进行补偿。

人脸框回归网络可以用于确定人脸在整个图像中的位置。人脸框回归网络可以输出一个矩形框，该矩形框可以通过四维向量表示。该四维向量用于表示人脸所在的区域，该区域左上角坐标(x，y)、宽w和高h。

如果检测失败，则重新获取另一帧视频数据，并进行步骤S907，将该帧图像传输至显示器显示。如果检测成功，则进行步骤S903。

在步骤S903，进行人脸特征提取。人脸特征提取可以通过人脸特征提取算法进行。人脸特征提取算法包括基于人脸特征点的识别算法、基于整幅人脸图像的识别算法、基于模板的识别算法等。利用这些算法进行人脸特征的提取，在提取之前，需要针对光照、人脸姿势以及系统噪声等干扰做预处理，预处理算法的选择会影响到后面特征的表述性。

人脸特征提取也可以通过神经网络进行。可以通过卷积神经网络模型进行人脸特征的提取。通过神经网络模型提取人脸特征，可以避免前期的预处理。例如可以采用深度卷积神经网络FaceNet，该网络可以将一张未经处理的165x165输入图像映射成128维特征向量(参见《基于端到端深度卷积神经网络的人脸识别算法》陈华官.2017.)。

根据人脸检测的结果，即人脸框回归网络输出的矩形框，从单帧视频数据I中分割出w×h的人脸图像I_F。再将I_F的w和h中较小的尺寸缩放至某一预设像素值，例如165像素，也就是说，缩放后的I_F略大于165×165。

然后上下左右各剪裁掉(h-165)/2、(h-165)/2、(w-165)/2、(w-165)/2，得到I_F′。I_F′的尺寸为165×165。最后将I_F′输入到训练好的FaceNet网络中，得到一个128维特征向量，即通话中的人脸特征向量。

在步骤S904，进行特征匹配。从本地存储中加载已存的人脸特征向量组，通话中的的人脸特征向量与人脸特征向量组进行匹配。如果人脸特征向量组包括一个向量，该向量与通话中的人脸特征向量的相似度在预设范围内，例如距离小于1，则认为匹配成功，进行步骤S905。否则，认为匹配失败，不存在与通话中的人脸特征向量对应的超分辨率模型，可以不对人脸区域进行任何操作，将单帧视频数据传送到屏幕显示，并在通话结束后进行步骤S908。

在步骤S905，对该帧图像进行人脸补偿。根据人脸特征向量组中的向量与超分辨率模型的一一对应关系，确定该向量对应的超分辨率模型。使用该超分辨率模型，对I_F进行处理，以获取高分辨率的人脸图像

将I_F输入该向量对应的人脸超分辨率模型。该向量对应的人脸超分辨率模型对I_F进行处理，输出高分辨率的人脸图像

在步骤S906，将人脸区域与背景区域融合。

人脸图像

与背景区域I_B存在清晰度的差异，如果直接拼接可能有较明显的拼接感。一般采用融合的方式使得

与背景区域I_B合成一张完整的图像。可以采用使泊松融合算法、拉普拉斯融合算法等融合算法对

与I_B进行融合。融合算法可以参见《图像融合研究综述》(朱炼,孙枫,夏芳莉,等.传感器与微系统,2014,33(2):14-18.)。

采用泊松融合算法，首先，对

和背景区域I_B分别求水平方向和垂直方向的一阶梯度，得到

GradX_B、GradY_B，梯度算子为：

g_x＝(0,-1,1),g_y＝(0,-1,1)^T

其中，g_x是水平方向一阶梯度算子，g_y是垂直方向一阶梯度算子。然后，将人脸图像和背景区域的一阶梯度对应相加，如下：

其中GradX_I和GradY_I分别是融合图像的水平一阶梯度和垂直一阶梯度。再对融合图像的梯度求一阶梯度，得到

梯度算子为：

g'_x＝(-1,1,0)，g'_y＝(-1,1,0)^T

最后根据

求得融合后的图像I′。

将人脸区域与背景区域融合之后，可以进行步骤S907，将融合后的图像传送到屏幕显示。

步骤S908-S912，根据当前的人脸特征，建立与当前的人脸特征对应的超分辨率模型。

为减小人脸特征提取的错误率以及各种干扰项带来的影响，可以取至少一帧包括人脸图像的视频数据，即人脸检测成功的视频数据。例如，每10帧取一帧视频数据，共取10帧有效的视频数据。对这10帧视频数据提取人脸特征，得到10组128维特征向量(V_F1,V_F2,V_F3,V_F4,V_F5,V_F6,V_F7,V_F8,V_F9,V_F10)，剔除一组欧式距离较远的特征向量，其做法为，先计算任意九组特征向量的均值，公式为：

再计算剩余一组特征向量V_Fj与

的欧式距离D_j，删掉与最大D_j对应的那组特征向量。计算其余九组特征向量的平均值作为对方P的人脸特征向量，记为

在步骤S908之前，进行步骤S913。S913可以在视频通话中进行，也可以在视频通话前进行，还可以在通话后进行。例如可以在终端设备处于空闲且有电状态时进行，或者在步骤S904之后，本申请实施例不作限定。

在步骤S913，对终端设备的图库等其他本地资源进行扫描，获得本地所有的图片和视频。对于每一张图片，检测图片的人脸区域，根据人脸区域确定人脸图像，以形成集合S_I。对于每一段视频，调用解码器解析成单帧图像，再对单帧图像做人脸检测，分割出人脸图像，以形成集合S_V。对S_I和S_V中的人脸图像进行人脸特征提取。

可选地，可以保存集合S_I与集合S_V中人脸图像与人脸特征的一一对应关系。

在步骤S908，根据通话中的人脸特征向量，确定训练图像集合。S_I和S_V中人脸图像对应的人脸特征与

的相似度满足预设值，则认为该人脸特征对应的人脸图像为通话的对象P的人脸图像。例如，计算S_I和S_V中人脸图像对应的人脸特征与

欧式空间距离，距离小于1，则认为该人脸特征对应的人脸图像是P的图像。将P的图像组成训练图像集合S_P。

在步骤S909，将训练图像集合S_P上传至训练设备。训练设备例如可以是服务器设备，家庭计算中心等。

在步骤S910，训练设备制作数据集。第一步，通过翻转、移位、旋转、加噪声等手段扩展S_P中人脸图像的数目，以获得扩展集合S_P'。第二步，对S_P'中的人脸图像做高斯模糊，并下采样，例如下采样2倍、3倍、4倍、8倍、或16倍下采样，以生成低分辨率的人脸图像集合S_Pl。S_Pl中的低分辨人脸图像与S_P'中的高清人脸图像一一对应，构成数据集T_B。应当理解，在制作数据集的过程中，对每个图像进行下采样的倍数相同。

应当理解，步骤S910也可以由进行图像处理的装置进行。

在步骤S911，训练模型。模型训练的过程参见图7。因为数据集T_B中的数据量较小，可能在训练过程中发生过拟合现象，所以在使用T_B训练之前，先使用公用数据集训练出一套模型，将该模型作为网络的预训练模型，再使用数据集T_B进行训练，得到最终的超分辨率模型M_P。将M_P发送至终端设备，终端设备保存超分辨率模型M_P与通话中的人脸特征向量

的对应关系。

图10是本申请实施例提供的一种图像处理装置的示意性结构图。装置1000包括获取模块1001，输入模块1002，确定模块1003。

获取模块1001用于，获取第一图像，所述第一图像包括第一分辨率的第一人脸图像和所述第一人脸图像之外的背景图像。

输入模块1002用于，将所述第一人脸图像输入特征提取模型，以获取所述第一人脸图像的第一人脸特征。

确定模块1003用于，根据所述对应关系，确定与所述第一人脸特征对应的第一神经网络模型，其中，所述第一人脸特征与所述第一神经网络模型对应的第二人脸特征之间的相似度在预设范围内，所述第一对应关系包括至少一个神经网络模型与至少一个人脸特征之间的一一对应关系，所述神经网络模型用于获取第二分辨率的图像，所述第二分辨率高于所述第一分辨率。

输入模块1002还用于，将所述第一人脸图像输入所述第一神经网络模型，以获取第二分辨率的第二人脸图像。

确定模块1003还用于，根据所述第二人脸图像和所述背景图像，确定第二图像。

可选地，装置1000还包括调整模块。

获取模块1001还用于，获取第三分辨率的第一训练人脸图像。

输入模块1002用于，将所述第一训练人脸图像对应的第四分辨率的第二训练人脸图像输入第一原始模型，以获取第三分辨率的第三训练人脸图像，所述第三分辨率高于所述第四分辨率。

调整模块用于，根据所述第一训练人脸图像和所述第三训练人脸图像调整所述第一原始模型的参数，以使所述第一训练人脸图像和所述第三训练人脸图像的相似度在第二预设范围内。调整后的所述第一原始模型为第二神经网络模型。

获取模块1001还用于，获取所述第一训练人脸图像的第三人脸特征。

确定模块1003还用于，确定所述第二神经网络模型、所述第三人脸特征，以及所述第二神经网络模型与所述第三人脸特征的对应关系，所述第二神经网络是所述至少一个神经网络中的任一神经网络模型。

可选地，装置1000还包括下采样模块，下采样模块用于对所述第一训练人脸图像进行下采样，以获取所述第二训练人脸图像。

可选地，装置1000还包括调整模块。

获取模块1001还用于，获取第五分辨率的第四训练人脸图像。

输入模块1002还用于，将所述第四训练人脸图像对应的第六分辨率的第五训练人脸图像输入第二原始模型，以获取第五分辨率的第六训练人脸图像，所述第五分辨率高于所述第六分辨率。

调整模块用于，根据所述第四训练人脸图像和所述第六训练人脸图像调整所述第二原始模型的参数，以使所述第四训练人脸图像和所述第六训练人脸图像的相似度在第三预设范围内。

获取模块1001还用于，获取第七分辨率的第七训练人脸图像。

输入模块1002还用于，将所述第七训练人脸图像对应的第八分辨率的第八训练人脸图像输入调整后的第二原始模型，以获取第七分辨率的第九训练人脸图像，所述第七分辨率高于所述第八分辨率。

调整模块还用于，根据所述第七训练人脸图像和所述第九训练人脸图像调整所述第二原始模型的参数，以使所述第一训练人脸图像和所述第三训练人脸图像的相似度在第二预设范围内。第二次调整后的所述第一原始模型为第二神经网络模型。

获取模块1001还用于，获取所述第七训练人脸图像的第四人脸特征。

确定模块1003还用于，确定所述第二神经网络模型、所述第四人脸特征，以及所述第二神经网络模型与所述第四人脸特征的对应关系，所述第二神经网络是所述至少一个神经网络中的任一神经网络模型。

可选地，所述第五分辨率与所述第六分辨率的比值为第一比值，与所述第七分辨率与所述第八分辨率的比值为第二比值；所述第一比值等于所述第二比值。

可选地，装置1000还包括下采样模块，下采样模块用于对所述第七训练人脸图像进行下采样，以获取所述第八训练人脸图像。

可选地，所述第一图像是接收的视频中的一帧图像。

图11是本申请实施例提供的一种图像处理装置的示意性结构图。

装置1100包括存储器1110和处理器1120。

存储器1110，用于存储程序。

处理器1120，当程序指令在处理器1120中执行时，所述处理器1120用于：

获取第一图像，所述第一图像包括第一分辨率的第一人脸图像和所述第一人脸图像之外的背景图像；

将所述第一人脸图像输入特征提取模型，以获取所述第一人脸图像的第一人脸特征；

根据第一对应关系，确定与所述第一人脸特征对应的第一神经网络模型，其中，所述第一人脸特征与所述第一神经网络模型对应的第二人脸特征之间的相似度在预设范围内，所述第一对应关系包括至少一个神经网络模型与至少一个人脸特征之间的一一对应关系，所述神经网络模型用于获取第二分辨率的图像，所述第二分辨率高于所述第一分辨率；

将所述第一人脸图像输入所述第一神经网络模型，以获取第二分辨率的第二人脸图像；

根据所述第二人脸图像和所述背景图像，确定第二图像。

可选地，所述处理器1120还用于：

获取第三分辨率的第一训练人脸图像；

将所述第一训练人脸图像对应的第四分辨率的第二训练人脸图像输入第一原始模型，以获取第三分辨率的第三训练人脸图像，所述第三分辨率高于所述第四分辨率；

根据所述第一训练人脸图像和所述第三训练人脸图像调整所述第一原始模型的参数，以使所述第一训练人脸图像和所述第三训练人脸图像的相似度在第二预设范围内；

将调整后的所述第一原始模型作为第二神经网络模型；

获取所述第一训练人脸图像的第三人脸特征；

确定所述第二神经网络模型与所述第三人脸特征的对应关系，所述第二神经网络是所述至少一个神经网络中的任一神经网络模型。

可选地，所述处理器1120还用于：

对所述第一训练人脸图像进行下采样，以获取所述第二训练人脸图像。

可选地，所述处理器1120还用于：

获取第五分辨率的第四训练人脸图像；

将所述第四训练人脸图像对应的第六分辨率的第五训练人脸图像输入第二原始模型，以获取第五分辨率的第六训练人脸图像，所述第五分辨率高于所述第六分辨率；

根据所述第四训练人脸图像和所述第六训练人脸图像调整所述第二原始模型的参数，以使所述第四训练人脸图像和所述第六训练人脸图像的相似度在第三预设范围内；

获取第七分辨率的第七训练人脸图像；

将所述第七训练人脸图像对应的第八分辨率的第八训练人脸图像输入调整后的第二原始模型，以获取第七分辨率的第九训练人脸图像，所述第七分辨率高于所述第八分辨率；

根据所述第七训练人脸图像和所述第九训练人脸图像调整所述第二原始模型的参数，以使所述第一训练人脸图像和所述第三训练人脸图像的相似度在第二预设范围内；

将第二次调整后的所述第一原始模型作为第二神经网络模型；

获取所述第七训练人脸图像的第四人脸特征；

确定所述第二神经网络模型与所述第四人脸特征的对应关系，所述第二神经网络是所述至少一个神经网络中的任一神经网络模型。

可选地，所述处理器1120还用于：

对所述第七训练人脸图像进行下采样，以获取所述第八训练人脸图像。

可选地，所述第一图像是接收的视频中的一帧图像。

图12是本申请实施例提供的一种神经网络模型的训练装置的硬件结构示意图。图12所示的训练装置1300(该装置1300具体可以是一种终端设备或服务器设备)包括存储器1301、处理器1302、通信接口1303以及总线1304。其中，存储器1301、处理器1302、通信接口1303通过总线1304实现彼此之间的通信连接。装置1300可以用于执行图5-图7所示的的方法，即可以用于人脸检测模型、人脸特征提取、超分辨率模型中的一种或多种模型的训练。

存储器1301可以是只读存储器(read only memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(random access memory，RAM)。存储器1301可以存储程序，当存储器1301中存储的程序被处理器1302执行时，处理器1302和通信接口1303用于执行本申请实施例的神经网络模型的训练方法的各个步骤。

处理器1302可以采用通用的中央处理器(central processing unit，CPU)，微处理器，应用专用集成电路(application specific integrated circuit，ASIC)或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例的神经网络模型的训练装置中的单元所需执行的功能，或者执行本申请方法实施例的神经网络模型的训练方法。

处理器1302还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的神经网络模型的训练方法的各个步骤可以通过处理器1302中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器1302还可以是通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(ASIC)、现成可编程门阵列(fieldprogrammable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1301，处理器1302读取存储器1301中的信息，结合其硬件完成本申请实施例的神经网络模型的训练装置中包括的单元所需执行的功能，或者执行本申请方法实施例的神经网络模型的训练方法。

通信接口1303使用例如但不限于收发器一类的收发装置，来实现装置1300与其他设备或通信网络之间的通信。例如，可以通过通信接口1303获取训练数据。

总线1304可包括在装置1300各个部件(例如，存储器1301、处理器1302、通信接口1303)之间传送信息的通路。

图13是本申请实施例提供的图像处理装置的硬件结构示意图。图13所示的装置1400(该装置1400具体可以是一种通信设备或服务器设备)包括存储器1401、处理器1402、通信接口1403以及总线1404。其中，存储器1401、处理器1402、通信接口1403通过总线1404实现彼此之间的通信连接。

存储器1401可以存储程序，当存储器1401中存储的程序被处理器1402执行时，处理器1402和通信接口1403用于执行本申请实施例的无线通信处理方法的各个步骤。

处理器1402用于执行相关程序，以实现本申请实施例无线通信处理装置中的模块所需执行的功能，或者执行本申请方法实施例的无线通信处理的方法。

通信接口1403使用例如但不限于收发器一类的收发装置，来实现装置1400与其他设备或通信网络之间的通信。例如，可以通过通信接口1403获取神经网络模型或待处理数据。

总线1404可包括在装置1400各个部件(例如，存储器1401、处理器1402、通信接口1403)之间传送信息的通路。

应注意，尽管图12和图13所示的装置1300和1400仅仅示出了存储器、处理器、通信接口，但是在具体实现过程中，本领域的技术人员应当理解，装置1300和1400还包括实现正常运行所必须的其他器件。同时，根据具体需要，本领域的技术人员应当理解，装置1300和1400还可包括实现其他附加功能的硬件器件。此外，本领域的技术人员应当理解，装置1300和1400也可仅仅包括实现本申请实施例所必须的器件，而不必包括图12或图13中所示的全部器件。

本申请实施例还提供一种计算机程序存储介质，其特征在于，所述计算机程序存储介质具有程序指令，当所述程序指令被直接或者间接执行时，使得前文中的方法得以实现。

本申请实施例还提供一种芯片系统，其特征在于，所述芯片系统包括至少一个处理器，当程序指令在所述至少一个处理器中执行时，使得前文中的方法得以实现。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种图像处理的方法，其特征在于，包括：

根据至少一个神经网络模型与至少一个人脸特征之间的一一对应关系，确定与所述第一人脸特征对应的第一神经网络模型，其中，所述第一人脸特征与所述第一神经网络模型对应的第二人脸特征之间的相似度在预设范围内，所述神经网络模型用于获取第二分辨率的图像，所述第二分辨率高于所述第一分辨率；

将所述第一人脸图像输入所述第一神经网络模型，以获取所述第二分辨率的第二人脸图像；

根据所述第二人脸图像和所述背景图像，确定第二图像。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取第三分辨率的第一训练人脸图像；

将调整后的所述第一原始模型作为第二神经网络模型；

获取所述第一训练人脸图像的第三人脸特征；

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取第五分辨率的第四训练人脸图像；

获取第七分辨率的第七训练人脸图像；

根据所述第七训练人脸图像和所述第九训练人脸图像调整所述第二原始模型的参数，以使所述第七训练人脸图像和所述第九训练人脸图像的相似度在第二预设范围内；

将第二次调整后的所述第二原始模型作为第二神经网络模型；

获取所述第七训练人脸图像的第四人脸特征；

5.根据权利要求4所述的方法，其特征在于，所述第五分辨率与所述第六分辨率的比值为第一比值，与所述第七分辨率与所述第八分辨率的比值为第二比值；所述第一比值等于所述第二比值。

6.根据权利要求4或5所述的方法，其特征在于，所述方法还包括：

7.根据权利要求1-5中任一项所述的方法，其特征在于，所述第一图像是接收的视频中的一帧图像。

8.一种图像处理装置，其特征在于，包括存储器和处理器，

所述存储器用于存储程序；

当程序指令在处理器中执行时，所述处理器用于：

根据所述第二人脸图像和所述背景图像，确定第二图像。

9.根据权利要求8所述的装置，其特征在于，

所述处理器还用于：

获取第三分辨率的第一训练人脸图像；

将调整后的所述第一原始模型作为第二神经网络模型；

获取所述第一训练人脸图像的第三人脸特征；

10.根据权利要求9所述的装置，其特征在于，所述处理器还用于：

11.根据权利要求8所述的装置，其特征在于，所述处理器还用于：

获取第五分辨率的第四训练人脸图像；

获取第七分辨率的第七训练人脸图像；

获取所述第七训练人脸图像的第四人脸特征；

12.根据权利要求11所述的装置，其特征在于，所述第五分辨率与所述第六分辨率的比值为第一比值，与所述第七分辨率与所述第八分辨率的比值为第二比值；所述第一比值等于所述第二比值。

13.根据权利要求11或12所述的装置，其特征在于，所述处理器还用于：

14.根据权利要求8-12中任一项所述的装置，其特征在于，所述第一图像是接收的视频中的一帧图像。

15.一种计算机存储介质，其特征在于，包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求1-7中任一项所述的方法。

16.一种芯片系统，其特征在于，所述芯片系统包括至少一个处理器，当程序指令在所述至少一个处理器中执行时，使得所述芯片系统执行如权利要求1-7中任一项所述的方法。