CN113628116B - 图像处理网络的训练方法、装置、计算机设备和存储介质 - Google Patents

图像处理网络的训练方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN113628116B
CN113628116B CN202111188444.9A CN202111188444A CN113628116B CN 113628116 B CN113628116 B CN 113628116B CN 202111188444 A CN202111188444 A CN 202111188444A CN 113628116 B CN113628116 B CN 113628116B
Authority
CN
China
Prior art keywords
image data
image
network
sample
face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111188444.9A
Other languages
English (en)
Other versions
CN113628116A (zh
Inventor
石世昌
黄飞
华超
熊唯
杨梁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111188444.9A priority Critical patent/CN113628116B/zh
Publication of CN113628116A publication Critical patent/CN113628116A/zh
Application granted granted Critical
Publication of CN113628116B publication Critical patent/CN113628116B/zh
Priority to EP22880058.7A priority patent/EP4300411A1/en
Priority to PCT/CN2022/117789 priority patent/WO2023061116A1/zh
Priority to JP2023570432A priority patent/JP2024517359A/ja
Priority to US18/207,572 priority patent/US20230334833A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4046Scaling the whole image or part thereof using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4053Super resolution, i.e. output image resolution higher than sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
    • G06T5/73
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/95Hardware or software architectures specially adapted for image or video understanding structured as a network, e.g. client-server architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation

Abstract

本申请公开了一种图像处理网络的训练方法、装置、计算机设备和存储介质,该方法包括:调用图像处理网络获取低清图像数据对应的样本超分图像数据,结合高清图像数据生成超分损失函数;获取样本超分图像数据对应的第一样本增强图像数据,结合高清图像数据生成画质损失函数;获取第一样本增强图像数据对应的第二样本增强图像数据,结合高清图像数据生成人脸损失函数;获取第二样本增强图像数据对应的样本锐化图像数据,结合高清图像数据生成锐化损失函数;根据超分损失函数、画质损失函数、人脸损失函数及锐化损失函数更新图像处理网络的网络参数。采用本申请,可提高训练得到的图像处理网络对图像数据进行优化的效果。

Description

图像处理网络的训练方法、装置、计算机设备和存储介质
技术领域
本申请涉及图像处理的技术领域,尤其涉及一种图像处理网络的训练方法、装置、计算机设备和存储介质。
背景技术
随着计算机网络的不断发展,需要对图像进行优化的场景越来越多,如对用户的某张照片进行优化,或者对视频数据中的图像帧进行优化等。而对图像进行优化则可以通过训练图像模型来进行优化。
现有应用中,在对图像模型进行训练时,可以对具有不同优化任务的多个图像模型分别进行训练,进而通过训练得到的多个图像模型依次对图像进行叠加优化即可。但是,通过多个图像模型对图像进行优化时,一个图像模型可能会对另一个图像模型具有反向优化的作用,从而导致各个图像模型之间优化的效果会被相互削弱,进而导致所训练得到的图像模型对图像进行优化的效果差。
发明内容
本申请提供了一种图像处理网络的训练方法、装置、计算机设备和存储介质,可提高训练得到的图像处理网络对图像数据进行优化的效果。
本申请一方面提供了一种图像处理网络的训练方法,该方法包括:
获取样本图像对;样本图像对包含低清图像数据和高清图像数据;低清图像数据与高清图像数据具有相同的图像内容;
调用图像处理网络将低清图像数据的分辨率调整到目标分辨率,得到样本超分图像数据,并根据样本超分图像数据和高清图像数据生成超分损失函数;
调用图像处理网络对样本超分图像数据进行画质增强处理,得到第一样本增强图像数据,并根据第一样本增强图像数据和高清图像数据生成画质损失函数;
调用图像处理网络对第一样本增强图像数据中的人脸图像进行人脸增强处理,得到样本增强人脸图像,并将样本增强人脸图像与第一样本增强图像数据进行融合,得到第二样本增强图像数据,以及根据样本增强人脸图像和高清图像数据中的人脸图像生成人脸损失函数;
调用图像处理网络对第二样本增强图像数据进行图像锐化处理,得到样本锐化图像数据,并根据样本锐化图像数据和高清图像数据生成锐化损失函数;
根据超分损失函数、画质损失函数、人脸损失函数及锐化损失函数更新图像处理网络的网络参数,得到训练好的图像处理网络。
本申请一方面提供了一种图像处理方法,该方法包括:
调用训练好的图像处理网络获取初始图像数据对应的超分图像数据;超分图像数据的分辨率大于或等于目标分辨率;
调用训练好的图像处理网络对超分图像数据进行画质增强处理,得到第一增强图像数据;
调用训练好的图像处理网络获取第一增强图像数据对应的第二增强图像数据;若第一增强图像数据中包含人脸图像,则第二增强图像数据是对第一增强图像数据中的人脸图像进行人脸增强后所得到的图像数据;
调用训练好的图像处理网络对第二增强图像数据进行图像锐化处理,得到锐化图像数据,并输出锐化图像数据。
本申请一方面提供了一种图像处理网络的训练装置,该装置包括:
样本获取模块,用于获取样本图像对;样本图像对包含低清图像数据和高清图像数据,低清图像数据与高清图像数据具有相同的图像内容;
样本调用模块,用于调用图像处理网络将低清图像数据的分辨率调整到目标分辨率,得到样本超分图像数据,并根据样本超分图像数据和高清图像数据生成超分损失函数;
样本调用模块,用于调用图像处理网络对样本超分图像数据进行画质增强处理,得到第一样本增强图像数据,并根据第一样本增强图像数据和高清图像数据生成画质损失函数;
样本调用模块,用于调用图像处理网络对第一样本增强图像数据中的人脸图像进行人脸增强处理,得到样本增强人脸图像,并将样本增强人脸图像与第一样本增强图像数据进行融合,得到第二样本增强图像数据,以及根据样本增强人脸图像和高清图像数据中的人脸图像生成人脸损失函数;
样本调用模块,用于调用图像处理网络对第二样本增强图像数据进行图像锐化处理,得到样本锐化图像数据,并根据样本锐化图像数据和高清图像数据生成锐化损失函数;
更新模块,用于根据超分损失函数、画质损失函数、人脸损失函数及锐化损失函数更新图像处理网络的网络参数,得到训练好的图像处理网络。
可选的,图像处理网络包括超分网络、画质增强网络、人脸增强网络和锐化网络;样本超分图像数据根据超分网络得到,第一样本增强图像数据根据画质增强网络得到,第二样本增强图像数据根据人脸增强网络得到,样本锐化图像数据根据锐化网络得到;
更新模块根据超分损失函数、画质损失函数、人脸损失函数及锐化损失函数更新图像处理网络的网络参数,得到训练好的图像处理网络的方式,包括:
根据超分损失函数、画质损失函数、人脸损失函数及锐化损失函数更新超分网络的网络参数,得到训练好的超分网络;
根据画质损失函数、人脸损失函数及锐化损失函数更新画质增强网络的网络参数,得到训练好的画质增强网络;
根据人脸损失函数及锐化损失函数更新人脸增强网络的网络参数,得到训练好的人脸增强网络;
根据锐化损失函数更新锐化网络的网络参数,得到训练好的锐化网络;
根据训练好的超分网络、训练好的画质增强网络、训练好的人脸增强网络和训练好的锐化网络生成训练好的图像处理网络。
可选的,样本调用模块根据样本超分图像数据和高清图像数据生成超分损失函数的方式,包括:
根据样本超分图像数据所包含的像素值元素和高清图像数据所包含的像素值元素,生成第一超分损失函数;
根据样本超分图像数据的特征图所包含的特征值元素和高清图像数据的特征图所包含的特征值元素,生成第二超分损失函数;
根据第一超分损失函数和第二超分损失函数,生成超分损失函数。
可选的,图像处理网络包括人脸增强网络,第二样本增强图像数据根据人脸增强网络得到,人脸增强网络包含人脸检测网络、颜色判别网络和纹理判别网络,第一样本增强图像数据中的人脸图像具有通过人脸检测网络所生成的人脸检测框、以及用于指示实际人脸位置的人脸标注框;
样本调用模块根据样本增强人脸图像和高清图像数据中的人脸图像生成人脸损失函数的方式,包括:
根据人脸检测框和人脸标注框生成检测损失函数;
对高清图像数据中的人脸图像进行抠取,得到高清人脸图像;
根据高清人脸图像、样本增强人脸图像及颜色判别网络生成颜色损失函数;
根据高清人脸图像、样本增强人脸图像及纹理判别网络生成纹理损失函数;
根据样本增强人脸图像的特征图所包含的特征值元素和高清人脸图像的特征图所包含的特征值元素,生成内容损失函数;
根据检测损失函数、颜色损失函数、纹理损失函数和内容损失函数生成人脸损失函数。
可选的,样本调用模块根据样本锐化图像数据和高清图像数据生成锐化损失函数的方式,包括:
根据样本锐化图像数据和高清图像数据之间的峰值信噪比,生成质量损失函数;
根据样本锐化图像数据和高清图像数据之间的感知相似度,生成感知损失函数;
根据质量损失函数和感知损失函数生成锐化损失函数。
可选的,样本获取模块获取样本图像对的方式,包括:
获取样本视频数据;
对样本视频数据进行分帧,得到样本视频数据所包含的多个样本图像帧;
采用目标码率对样本视频数据进行编解码处理,得到样本视频数据对应的低质视频数据;低质视频数据的图像帧画质低于样本视频数据的图像帧画质,低质视频数据包含每个样本图像帧分别对应的低质图像帧,目标码率低于码率阈值;
根据每个样本图像帧与所对应的低质图像帧构建样本图像对。
可选的,样本获取模块获取样本图像对的方式,包括:
获取样本视频数据;
对样本视频数据进行分帧,得到样本视频数据所包含的多个样本图像帧;
从多个样本图像帧中选取目标图像帧作为高清图像数据;
对目标图像帧和多个样本图像帧中目标图像帧的相邻图像帧进行平均融合处理,得到低清图像数据。
可选的,样本获取模块获取样本图像对的方式,包括:
获取高清图像数据;
对高清图像数据进行高斯模糊处理,得到低清图像数据。
可选的,样本获取模块获取样本图像对的方式,包括:
获取高清图像数据;
对高清图像数据进行失真格式转换,得到低清图像数据。
可选的,样本获取模块获取样本图像对的方式,包括:
获取高清图像数据;
获取样本低清视频数据,并将样本低清视频数据输入噪声学习网络;样本低清视频数据的清晰度低于清晰度阈值;
基于噪声学习网络学习样本低清视频数据的噪声数据;
在高清图像数据中融合噪声数据,得到低清图像数据。
本申请一方面提供了一种图像处理装置,该装置包括:
超分调用模块,用于调用训练好的图像处理网络获取初始图像数据对应的超分图像数据;超分图像数据的分辨率大于或等于目标分辨率;
画质调用模块,用于调用训练好的图像处理网络对超分图像数据进行画质增强处理,得到第一增强图像数据;
人脸调用模块,用于调用训练好的图像处理网络获取第一增强图像数据对应的第二增强图像数据;若第一增强图像数据中包含人脸图像,则第二增强图像数据是对第一增强图像数据中的人脸图像进行人脸增强后所得到的图像数据;
锐化调用模块,用于调用训练好的图像处理网络对第二增强图像数据进行图像锐化处理,得到锐化图像数据,并输出锐化图像数据。
可选的,训练好的图像处理网络包括超分网络,超分调用模块调用训练好的图像处理网络获取初始图像数据对应的超分图像数据的方式,包括:
获取初始图像数据;
调用超分网络检测初始图像数据的分辨率;
若初始图像数据的分辨率大于或等于目标分辨率,则将初始图像数据确定为超分图像数据;
若初始图像数据的分辨率小于目标分辨率,则调用超分网络将初始图像数据的分辨率调整到目标分辨率,得到超分图像数据。
可选的,训练好的图像处理网络包括人脸增强网络,人脸调用模块调用训练好的图像处理网络获取第一增强图像数据对应的第二增强图像数据的方式,包括:
调用人脸增强网络对第一增强图像数据进行人脸检测;
若第一增强图像数据不包含人脸图像,则将第一增强图像数据确定为第二增强图像数据;
若第一增强图像数据包含人脸图像,则调用人脸增强网络对第一增强图像数据中的人脸图像进行人脸增强处理,得到第二增强图像数据。
可选的,人脸增强网络包含人脸检测网络、人脸增强子网络和人脸融合网络;
人脸调用模块调用人脸增强网络对第一增强图像数据中的人脸图像进行人脸增强处理,得到第二增强图像数据的方式,包括:
调用人脸检测网络对第一增强图像数据中的人脸图像进行抠取,得到抠取人脸图像;
调用人脸增强子网络对抠取人脸图像进行人脸增强处理,得到增强人脸图像;
调用人脸融合网络生成人脸融合掩膜;
根据人脸融合掩膜对第一增强图像数据和增强人脸图像进行图像融合处理,得到第二增强图像数据。
可选的,训练好的图像处理网络包括锐化网络,锐化调用模块调用训练好的图像处理网络对第二增强图像数据进行图像锐化处理,得到锐化图像数据的方式,包括:
调用锐化网络提取第二增强图像数据中的高频图像信息;
根据锐化网络生成针对第二增强图像数据的锐化掩膜,并根据锐化掩膜提取第二增强图像数据中的锐化图像信息;
根据锐化网络预测针对高频图像信息的第一加权权重、针对锐化图像信息的第二加权权重以及针对第二增强图像数据的第三加权权重;
根据第一加权权重、第二加权权重和第三加权权重对应对高频图像信息、锐化图像信息和第二增强图像数据进行加权求和,得到锐化图像数据。
可选的,初始图像数据是对视频数据进行分帧所得到的多个图像帧中任一个图像帧;上述装置还用于:
根据多个图像帧中每个图像帧分别对应的锐化图像数据,生成视频数据的优化视频数据;
将优化视频数据推送给应用客户端,以使应用客户端输出优化视频数据。
本申请一方面提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行本申请中一方面中的方法。
本申请一方面提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时使该处理器执行上述一方面中的方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述一方面等各种可选方式中提供的方法。
本申请可以获取样本图像对;样本图像对包含低清图像数据和高清图像数据,低清图像数据与高清图像数据具有相同的图像内容;调用图像处理网络将低清图像数据的分辨率调整到目标分辨率,得到样本超分图像数据,并根据样本超分图像数据和高清图像数据生成超分损失函数;调用图像处理网络对样本超分图像数据进行画质增强处理,得到第一样本增强图像数据,并根据第一样本增强图像数据和高清图像数据生成画质损失函数;调用图像处理网络对第一样本增强图像数据中的人脸图像进行人脸增强处理,得到样本增强人脸图像,并将样本增强人脸图像与第一样本增强图像数据进行融合,得到第二样本增强图像数据,以及根据样本增强人脸图像和高清图像数据中的人脸图像生成人脸损失函数;调用图像处理网络对第二样本增强图像数据进行图像锐化处理,得到样本锐化图像数据,并根据样本锐化图像数据和高清图像数据生成锐化损失函数;根据超分损失函数、画质损失函数、人脸损失函数及锐化损失函数更新图像处理网络的网络参数,得到训练好的图像处理网络。由此可见,本申请提出的方法可以对图像处理网络进行多任务(如包括超分任务、画质增强任务、人脸增强任务以及锐化任务)的相互关联相互融合地训练,使得训练后的图像处理网络在对图像同时进行多任务的优化时各个任务之间不会发生冲突,优化效果更好。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构的结构示意图;
图2是本申请提供的一种网络训练的场景示意图;
图3是本申请提供的一种图像处理网络的训练方法的流程示意图;
图4是本申请提供的一种编码解码网络的结构示意图;
图5是本申请提供的一种基本单元的结构示意图;
图6是本申请提供的一种获取损失函数的场景示意图;
图7是本申请提供的一种图像处理方法的流程示意图;
图8是本申请提供的一种对人脸进行优化的场景示意图;
图9是本申请提供的一种图像优化的场景示意图;
图10是本申请提供的一种数据推送的场景示意图;
图11是本申请提供的一种图像处理网络的训练装置的结构示意图;
图12是本申请提供的一种图像处理装置的结构示意图;
图13是本申请提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请涉及到人工智能相关技术。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请中主要涉及到了人工智能中的机器学习。其中,机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请中所涉及到的机器学习主要指,如何训练得到图像处理网络,进而通过训练得到的图像处理网络可以对图像进行优化,具体可以参见下述图3对应的实施例中的描述。
请参见图1,图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示,网络架构可以包括服务器200和终端设备集群,终端设备集群可以包括一个或者多个终端设备,这里将不对终端设备的数量进行限制。如图1所示,多个终端设备具体可以包括终端设备100a、终端设备101a、终端设备102a、…、终端设备103a;如图1所示,终端设备100a、终端设备101a、终端设备102a、…、终端设备103a均可以与服务器200进行网络连接,以便于每个终端设备可以通过网络连接与服务器200之间进行数据交互。
如图1所示的服务器200可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是:智能手机、平板电脑、笔记本电脑、桌上型电脑、智能电视、车载终端等智能终端。下面以终端设备100a与服务器200之间的通信为例,进行本申请实施例的具体描述。
请一并参见图2,图2是本申请提供的一种网络训练的场景示意图。其中上述终端设备100a中可以具有应用客户端,服务器200可以是该应用客户端的后台服务器,服务器200可以向应用客户端推送视频数据,但是,服务器200在向应用客户端推送视频数据时,可以对该视频数据进行优化再推送给应用客户端,对视频数据进行优化可以指优化视频数据所包含的每一个图像帧。其中,服务器200可以通过训练好的图像处理网络来优化视频数据中的图像帧,该图像处理网络的训练过程请参见如下内容描述。
其中,需要进行训练的图像处理网络可以包含超分网络、画质增强网络、人脸增强网络和锐化网络。服务器200可以获取到样本图像对,该样本图像对可以包含低清图像数据和高清图像数据,服务器200可以将该样本图像对输入图像数据网络,首先,通过图像处理网络中的超分网络可以对低清图像数据进行超分处理(即提高低清图像数据的分辨率),得到样本超分图像数据,进而通过样本超分图像数据以及高清图像数据可以生成超分损失函数。
接着,通过图像处理网络中的画质增强网络可以对样本超分图像数据进行画质增强处理,得到第一样本增强图像数据,进而通过第一样本增强图像数据以及高清图像数据就可以生成画质损失函数。
再接着,通过图像处理网络中的人脸增强网络可以对第一样本增强图像数据中的人脸图像进行人脸增强,得到样本增强人脸图像,进而通过样本增强人脸图像和高清图像数据中的高清人脸图像就可以生成人脸损失函数,通过将样本增强人脸图像和第一样本增强图像数据进行融合还可以生成第二样本增强图像数据,具体可以参见下述图3对应实施例中的相应描述。
再接着,通过图像处理网络中的锐化网络可以对第二样本增强图像数据进行锐化处理,得到样本锐化图像数据,进而通过样本锐化图像数据和高清图像数据即可生成锐化损失函数。
服务器200可以在图像处理网络中将上述所生成的超分损失函数、画质损失函数、人脸损失函数以及锐化损失函数往前传递,继而通过超分损失函数、画质损失函数、人脸损失函数以及锐化损失函数一起对图像处理网络中所传递到的网络的网络参数进行更新,得到训练好的图像处理网络。训练好的图像处理网络就可以用于对图像进行优化,如对下述初始图像数据进行优化,该优化的具体过程可以参见下述图7对应实施例中的相关描述。
通过采用本申请实施例中所提供的模型训练方法,可以实现对超分网络、画质增强网络、人脸增强网络和锐化网络之间相互关联相互融合的训练,使得训练后的超分网络、画质增强网络、人脸增强网络以及锐化网络在对图像一起进行优化时不会发生冲突,优化效果更好。
请参见图3,图3是本申请提供的一种图像处理网络的训练方法的流程示意图。本申请实施例中的执行主体可以是一个计算机设备或者多个计算机设备所构成的计算机设备集群。该计算机设备可以是服务器,也可以终端设备。因此,本申请实施例中的执行主体可以是服务器,也可以是终端设备,还可以是由服务器和终端设备共同构成。此处以本申请实施例中的执行主体是服务器为例进行说明。如图3所示,该方法可以包括:
步骤S101,获取样本图像对;样本图像对包含低清图像数据和高清图像数据,低清图像数据与高清图像数据具有相同的图像内容;
本申请中,服务器可以获取到样本图像对,该样本图像对是用于对图像处理网络进行训练的图像对,一个样本图像对可以包含一个低清图像数据和一个与该低清图像数据相对应的高清图像数据,由于采用各个样本图像对训练图像处理网络的原理相同,因此,此处以通过一个样本图像对(下述统称样本图像对)训练图像处理网络的过程为例进行说明,请参见下述内容描述。
样本图像对所包含的低清图像数据和高清图像数据是具有相同图像内容但具有不同图像清晰度(可以简称清晰度)的图像,低清图像数据的清晰度要低于高清图像数据的清晰度。其中,低清图像数据的分辨率可以小于目标分辨率,高清图像数据的分辨率可以大于或者等于目标分辨率,目标分辨率可以根据实际应用场景进行设定,如目标分辨率可以是1920*1080。
本申请实施例获取样本图像对的方式可以有以下5种,具体如下:
获取样本图像对的第1种方式:服务器可以获取到高清的样本视频数据,该样本视频数据可以是用于获取样本图像对的视频数据。由于一个视频数据可以包含多个图像帧,因此该高清的样本视频数据可以指所包含的图像帧的清晰度大于清晰度阈值的视频数据,该清晰度阈值可以根据实际应用场景进行设定。此外,该样本视频数据还可以是所包含的图像帧的分辨率大于上述目标分辨率的视频数据。
因此,服务器可以对样本视频数据进行分帧,可以得到样本视频数据所包含的多个图像帧,可以将样本视频数据所包含的图像帧称之为样本图像帧。服务器还可以采用目标码率(该目标码率为低码率)对样本视频数据进行编解码处理(即编码之后再解码),可以将编解码后所得到的视频数据称之为低质视频数据。该低质视频数据的图像帧画质要低于样本视频数据的图像帧画质,即低质视频数据所包含的图像帧的清晰度低于样本视频数据所包含的图像帧的清晰度。其中,目标码率可以是低于码率阈值的码率,该码率阈值可以根据实际应用场景进行设定,目标码率可以是一个比较低的码率,因此,通过目标码率对样本视频数据进行编解码后,所得到的低质视频数据的画质会变差,使得低质视频数据所包含的图像帧的清晰度会变低。
可以将上述低质视频数据所包含的图像帧称之为低质图像帧,低质视频数据可以包含每个样本图像帧分别对应的低质图像帧,一个样本图像帧对应一个低质图像帧。由于编解码没有改变图像帧的分辨率,因此此时所得到的低质图像帧其实是高分辨率的图像帧,因此,可以将低质视频数据中各个低质图像帧的分辨率调低,如调到低于目标分辨率,可以将分辨率调低后的低质图像帧称之为低分辨率图像帧,因此,服务器可以根据每个样本图像帧与对应的低质图像帧所属的低分辨率图像帧构建样本图像对,一个样本图像对可以包含一个样本图像帧以及该样本图像帧对应的一个低分辨率图像帧(即将该样本图像帧对应的低质图像帧的分辨率调小后所得到的图像帧),一个样本图像对所包含的样本图像帧就是一个高清图像数据,一个样本图像对所包含的低分辨率图像数据就是一个低清图像数据。因此,通过上述样本视频数据可以获取到多个样本图像对。
获取样本图像对的第2种方式:同样,服务器可以获取到样本视频数据,服务器可以对该样本视频数据进行分帧,得到样本视频数据所包含的多个样本图像帧,进而,服务器可以从该多个样本图像帧中选取目标图像帧作为上述高清图像数据,进而,服务器可以对该目标图像帧以及多个样本图像帧中该目标图像帧的相邻图像帧进行平均融合处理,可以将进行平均融合处理后所得到的图像帧称之为平均图像帧,进而服务器可以将该平均图像帧的分辨率调低(如调到低于目标分辨率),即可得到低清图像数据。其中,一个目标图像帧可以是样本视频数据所包含的多个图像帧中的任一个图像帧,一个目标图像帧可以是一个高清图像数据,目标图像帧可以有多个。目标图像帧的相邻图像帧可以包括多个样本图像帧中目标图像帧左边1个或多个图像帧以及目标图像帧右边1个或多个图像帧,目标图像帧的相邻图像帧的个数根据实际应用场景决定,对此不作限制。
获取样本图像对的第3种方式:服务器可以直接获取到高清图像数据,如该高清图像数据可以是从网页上下载下来的,或者也可以是本地的高清图像数据。因此,服务器可以对该高清图像数据进行高斯模糊处理,再将进行高斯模糊处理后的图像帧的分辨率调低(如调到低于目标分辨率),即可得到该高清图像数据对应的低清图像数据。其中,高斯模糊也称为高斯平滑。
获取样本图像对的第4种方式:服务器也可以直接获取到高清图像数据,服务器可以对该高清图像数据进行失真格式转换,再将进行失真格式转换的图像帧的分辨率调低(如调到低于目标分辨率),即可得到该高清图像数据对应的低清图像数据。例如,对高清图像数据进行失真格式转换可以理解为对高清图像数据进行压缩,压缩后所得到的图像帧的画质会低于高清图像数据的画质,如对高清图像数据进行失真格式转换可以指将高清图像数据的数据格式从png(一种无损压缩图像格式)转换为jpg(一种有损压缩图像格式)。
获取样本图像对的第5种方式:服务器可以直接获取到高清图像数据。服务器还可以获取到样本低质视频数据,该样本低质视频数据可以指所包含的图像帧的清晰度低于清晰度阈值的视频数据,因此,服务器可以通过机器学习的方式学习样本低质视频数据的噪声数据,进而服务器通过在高清图像数据中融合该噪声数据,再将融合有该噪声数据的高清图像数据的分辨率调低,即可得到低清图像数据。其中,在高清图像数据中融合噪声数据的方式可以是在高清图像数据中加入噪声数据。其中,服务器通过机器学习的方式学习样本低质视频数据的噪声数据的过程可以是:服务器可以获取到噪声学习网络,该噪声学习网络可以是一个能够学习视频数据中的噪声数据的模型,因此,服务器可以将样本低质视频数据输入噪声学习网络,即可以通过该噪声学习网络学习到样本低质视频数据的噪声数据。
获取到高清图像数据以及低清图像数据后,即可通过所获取到的高清图像数据以及低清图像数据构建样本图像对。
其中,所构建的样本图像对用于对图像处理网络进行训练,该图像处理网络可以包括超分网络、画质增强网络、人脸增强网络和锐化网络。
对于图像处理网络的各生成网络(如超分网络、画质增强网络、人脸增强网络),可以采取基于encoder(编码)-decoder(解码)思想的U-Net结构(一种网络结构)。每个生成网络可以由基本单元(block,即块)构成,其中超分网络的encoder和decoder分别采用3个block(指编码器和解码器中的一层可以采用3个block),画质增强网络和人脸增强网络分别采取5个block(指编码器和解码器中的一层可以采用5个block),每个block的基本通道数可以为16。此外,本申请中,block内部第一个3x3卷积会做通道放大,以提升特征维度,进而输出的3x3卷积会做特征压缩,以保持与输入通道维度不变,这可以学习到图像更多的特征信息。
此外,本申请中,在超分网络中对图像进行超分处理时,可以用PixelShuffle(一种上采样方法)作为上采样操作,通过通道到空间的维度转换代替插值上采样方案,可以实现更好的视觉效果。
本申请通过采用多种方式来获取样本图像对,可以丰富所获取到的样本图像对的类型,进而采用多种样本图像对训练图像处理网络,可以提升对图像处理网络的训练效果,具体请参见下述内容描述。
请参见图4和图5,图4是本申请提供的一种编码解码网络的结构示意图,图5是本申请提供的一种基本单元的结构示意图。其中,上述超分网络、画质增强网络、人脸增强网络均可以采用如图4所示的网络结构,该网络结构可以包含编码器和解码器,编码器可以有3层,解码器可以有3层。其中,编码器和解码器的每一层又可以是通过如图5所示的基本单元构成,一个基本单元可以依次包括3*3的卷积层、规范化网络层、激活层(即LeakyRelu)、3*3的卷积层以及1*1的卷积层。
步骤S102,调用图像处理网络将低清图像数据的分辨率调整到目标分辨率,得到样本超分图像数据,并根据样本超分图像数据和高清图像数据生成超分损失函数;
本申请中,服务器可以调用图像处理网络中的超分网络将低清图像数据的分辨率调高,如调整到目标分辨率,进而生成低清图像数据对应的样本超分图像数据,该样本超分图像数据就是通过超分网络将低清图像数据的分辨率调高到目标分辨率后所得到的图像数据。
接着,服务器可以通过样本超分图像数据和高清图像数据生成超分损失函数,具体如下:
其中,超分损失函数可以包含两部分,一部分是像素层面的损失函数,一部分是特征层面的损失函数,通过结合像素层面的损失函数和特征层面的损失函数来对超分效果进行约束可以使得超分训练效果更准确更好。
其中,可以将像素层面的损失函数称之为第一超分损失函数,可以将特征层面的损失函数称之为第二超分损失函数。
服务器可以通过样本超分图像数据所包含的像素值元素和高清图像数据所包含的像素值元素生成该第一超分损失函数,该第一超分损失函数
Figure 325896DEST_PATH_IMAGE001
可以参见下述公式(1)所示:
Figure 445161DEST_PATH_IMAGE002
(1)
其中,样本超分图像数据和高清图像数据所包含的像素点的个数相同,均为N,一个像素点处的像素值可以称之为一个像素值元素,
Figure 734367DEST_PATH_IMAGE003
表示高清图像数据,
Figure 306294DEST_PATH_IMAGE004
表示样本超分图像数据,
Figure 606825DEST_PATH_IMAGE005
表示高清图像数据中第
Figure 79133DEST_PATH_IMAGE006
个像素值元素,
Figure 49494DEST_PATH_IMAGE007
表示样本超分图像数据中第
Figure 374296DEST_PATH_IMAGE006
个像素值元素,
Figure 183245DEST_PATH_IMAGE006
从0开始计数,
Figure 339420DEST_PATH_IMAGE006
小于或等于N,N为图像数据中像素值元素的总个数。
服务器可以通过样本超分图像数据在超分网络中的特征图所包含的特征值元素和高清图像数据在超分网络中的特征图所包含的特征值元素,生成第二超分损失函数,该第二超分损失函数
Figure 746262DEST_PATH_IMAGE008
可以参见下述公式(2)所示:
Figure 292781DEST_PATH_IMAGE009
(2)
其中,
Figure 731853DEST_PATH_IMAGE010
的取值可以根据实际应用场景确定,
Figure 850856DEST_PATH_IMAGE010
表示特征层的层数,
Figure 490916DEST_PATH_IMAGE011
表示超分网络的第
Figure 524731DEST_PATH_IMAGE010
个特征层的特征图的高度,
Figure 675483DEST_PATH_IMAGE012
表示第
Figure 478354DEST_PATH_IMAGE010
个特征层的特征图的宽度,
Figure 554894DEST_PATH_IMAGE013
表示第
Figure 872743DEST_PATH_IMAGE010
个特征层的通道数,
Figure 293098DEST_PATH_IMAGE014
对应于特征图的高度,
Figure 888159DEST_PATH_IMAGE014
的最大值等于
Figure 135600DEST_PATH_IMAGE011
Figure 645472DEST_PATH_IMAGE015
对应于特征图的宽度,
Figure 370983DEST_PATH_IMAGE015
的最大值等于
Figure 414025DEST_PATH_IMAGE016
Figure 832368DEST_PATH_IMAGE017
对应于特征图的通道,
Figure 561028DEST_PATH_IMAGE017
的最大值等于
Figure 683704DEST_PATH_IMAGE013
。可以将特征图中每个特征点处的值称之为特征值元素,因此,可以理解的是,可以将
Figure 722199DEST_PATH_IMAGE014
Figure 311443DEST_PATH_IMAGE015
Figure 807626DEST_PATH_IMAGE017
理解为是针对特征图中的特征值元素的索引。
Figure 937256DEST_PATH_IMAGE018
表示一个操作,即从特征图中提取对应位置处的特征值元素的操作。
更多的,
Figure 158153DEST_PATH_IMAGE019
表示样本超分图像数据
Figure 183878DEST_PATH_IMAGE020
在第
Figure 887129DEST_PATH_IMAGE021
个特征层的第
Figure 695817DEST_PATH_IMAGE022
个通道的特征图(在超分网络中的特征图)中高度为
Figure 36799DEST_PATH_IMAGE023
宽度为
Figure 469311DEST_PATH_IMAGE024
处的特征值元素,
Figure 161323DEST_PATH_IMAGE025
表示高清图像数据
Figure 101598DEST_PATH_IMAGE026
在第
Figure 890562DEST_PATH_IMAGE021
个特征层的第
Figure 163149DEST_PATH_IMAGE022
个通道的特征图(在超分网络中的特征图)中高度为
Figure 873616DEST_PATH_IMAGE023
宽度为
Figure 86423DEST_PATH_IMAGE024
处的特征值元素。
因此,超分损失函数就可以是上述第一超分损失函数
Figure 575566DEST_PATH_IMAGE027
和第二超分损失函数
Figure 645154DEST_PATH_IMAGE028
之和。
步骤S103,调用图像处理网络对样本超分图像数据进行画质增强处理,得到第一样本增强图像数据,并根据第一样本增强图像数据和高清图像数据生成画质损失函数;
本申请中,上述通过超分图像所得到的样本超分图像数据就可以是画质增强网络的输入,服务器可以调用图像处理网络中的画质增强网络对样本超分图像数据进行画质增强处理,以生成样本超分图像数据对应的第一样本增强图像数据,该第一样本增强图像数据就是对样本超分图像数据进行画质增强处理后所得到的图像数据。
进而,服务器可以将通过第一样本增强图像数据和高清图像数据之间的均方误差所得到的峰值信噪比即(PSNR)作为画质损失函数,该画质损失函数
Figure 46179DEST_PATH_IMAGE029
可以参见下述公式(3)所示:
Figure 233316DEST_PATH_IMAGE030
(3)
其中,其中,
Figure 668976DEST_PATH_IMAGE031
表示高清图像数据,
Figure 847148DEST_PATH_IMAGE032
表示第一样本增强图像数据,
Figure 1049DEST_PATH_IMAGE033
表示高清图像数据和第一样本增强图像数据之间的均方误差,bits可以表示精度,该精度可以是二进制的位数为16的精度或者可以是二进制的位数为32的精度。
步骤S104,调用图像处理网络对第一样本增强图像数据中的人脸图像进行人脸增强处理,得到样本增强人脸图像,并将样本增强人脸图像与第一样本增强图像数据进行融合,得到第二样本增强图像数据,以及根据样本增强人脸图像和高清图像数据中的人脸图像生成人脸损失函数;
本申请中,可以将通过上述画质增强网络所得到的第一样本增强图像数据作为人脸增强网络的输入,第一样本增强图像数据中可以包含人脸图像,服务器还可以调用图像处理网络中的人脸增强网络对第一样本增强图像数据中的人脸图像进行人脸增强处理,以生成第二样本增强图像数据,该第二样本增强图像数据就是对第一样本增强图像数据中的人脸图像进行人脸增强处理后所得到的图像数据,具体可以参见下述描述内容。
其中,人脸增强网络可以包含人脸检测网络、人脸增强子网络以及人脸融合网络,人脸增强子网络又可以包含颜色判别网络和纹理判别网络,服务器可以调用人脸检测网络检测第一样本增强图像数据中人脸图像所在的检测框,可以将该检测框称之为人脸检测框,第一样本增强图像数据中还可以被标注有用于指示第一样本增强图像数据中的人脸图像实际所在位置的标注框,可以将该标注框称之为人脸标注框。服务器可以将人脸检测框中所包含的人脸图像从第一样本增强图像数据中抠取下来,即可得到检测到的人脸图像,进而,服务器可以调用人脸增强子网络对检测到的人脸图像(即从第一样本增强图像数据中抠取下来的人脸图像)进行人脸增强处理,即可得到增强后的人脸图像,可以将该增强后的人脸图像称之为样本增强人脸图像,该样本增强人脸图像也就是对第一样本增强图像数据中的人脸图像进行人脸增强处理后所得到的人脸图像。服务器可以调用人脸融合网络将该样本增强人脸图像与第一样本增强图像数据进行融合,可以将融合所得到的图像数据称之为第二样本增强图像数据。
因此,服务器可以通过上述人脸检测框和人脸标注框生成检测损失函数,顾名思义,该检测损失函数也就是由对第一样本增强图像数据中人脸图像所检测的位置与该人脸图像实际所在位置之间的偏差带来的,该检测损失函数
Figure 119440DEST_PATH_IMAGE034
可以参见下述公式(4)所示:
Figure 409607DEST_PATH_IMAGE035
(4)
其中,
Figure 493100DEST_PATH_IMAGE036
可以是人脸标注框,
Figure 868718DEST_PATH_IMAGE037
可以是人脸检测框,
Figure 991132DEST_PATH_IMAGE038
可以表示人脸标注框和人脸检测框交集的面积,
Figure 135806DEST_PATH_IMAGE039
表示人脸标注框的面积,
Figure 921359DEST_PATH_IMAGE040
表示人脸检测框的面积。
服务器还可以对高清图像数据中的人脸图像进行抠取,得到高清图像数据中的人脸图像,可以将抠取下来的高清图像数据中的人脸图像称之为高清人脸图像。
服务器还可以通过高清人脸图像、样本增强人脸图像以及颜色判别器生成颜色损失函数,顾名思义,该颜色损失函数用于表征所增强得到的样本增强人脸图像的颜色与高清人脸图像的颜色之间的差异,如可以通过颜色判别器判别样本增强人脸图像的颜色是高清人脸图像的颜色的概率,用该概率表征颜色损失函数,其目标就是使得所判别的该概率趋近于0.5,就表明颜色判别器此时已经区分不出样本增强人脸图像的颜色和高清人脸图像的颜色,此时达到预期效果。
其中,服务器可以分别对高清人脸图像和样本增强人脸图像进行高斯模糊后,再判别高斯模糊后的样本增强人脸图像的颜色是高斯模糊后的高清人脸图像的颜色的概率,用该概率表征颜色损失函数。
服务器还可以通过高清人脸图像、样本增强人脸图像以及纹理判别器生成纹理损失函数,顾名思义,该纹理损失函数用于表征所增强得到的样本增强人脸图像的纹理与高清人脸图像的纹理之间的差异,如可以通过纹理判别器判别样本增强人脸图像的纹理是高清人脸图像的纹理的概率,用该概率表征纹理损失函数,其目标就是使得所判别的该概率趋近于0.5,就表明纹理判别器此时已经区分不出样本增强人脸图像的纹理和高清人脸图像的纹理,此时达到预期效果。
其中,服务器可以分别对高清人脸图像和样本增强人脸图像进行灰度化后,再判别灰度化后的样本增强人脸图像的纹理是灰度化后的高清人脸图像的纹理的概率,用该概率表征纹理损失函数。
更多的,服务器还可以通过样本增强人脸图像的特征图所包含的特征值元素以及高清人脸图像的特征图所包含的特征值元素,生成内容损失函数,该内容损失函数用于表征第二样本增强图像数据和高清图像数据之间的内容差异,该内容损失函数
Figure 784273DEST_PATH_IMAGE041
可以参见下述公式(5)所示:
Figure 436010DEST_PATH_IMAGE042
(5)
其中,
Figure 700770DEST_PATH_IMAGE043
可以是高清人脸图像,
Figure 922804DEST_PATH_IMAGE044
可以是样本增强人脸图像,
Figure 273013DEST_PATH_IMAGE045
的取值可以根据实际应用场景确定,
Figure 471651DEST_PATH_IMAGE045
表示特征层的层数,
Figure 387655DEST_PATH_IMAGE046
表示人脸增强子网络中第
Figure 780590DEST_PATH_IMAGE045
个特征层的特征图的高度,
Figure 821358DEST_PATH_IMAGE047
表示第
Figure 826617DEST_PATH_IMAGE045
个特征层的特征图的宽度,
Figure 65968DEST_PATH_IMAGE048
表示第
Figure 957701DEST_PATH_IMAGE045
个特征层的通道数,
Figure 548082DEST_PATH_IMAGE049
对应于特征图的高度,
Figure 324408DEST_PATH_IMAGE049
的最大值等于
Figure 916801DEST_PATH_IMAGE046
Figure 58064DEST_PATH_IMAGE050
对应于特征图的宽度,
Figure 604583DEST_PATH_IMAGE050
的最大值等于
Figure 482802DEST_PATH_IMAGE051
Figure 431167DEST_PATH_IMAGE052
对应于特征图的通道,
Figure 664702DEST_PATH_IMAGE053
的最大值等于
Figure 964096DEST_PATH_IMAGE054
。可以将特征图中每个特征点处的值称之为特征值元素,因此,可以理解的是,可以将
Figure 347804DEST_PATH_IMAGE049
Figure 914790DEST_PATH_IMAGE050
Figure 991330DEST_PATH_IMAGE053
理解为是针对特征图中的特征值元素的索引。
Figure 512441DEST_PATH_IMAGE055
表示一个操作,即从特征图中提取对应位置处的特征值元素的操作。
更多的,
Figure 903102DEST_PATH_IMAGE056
表示样本增强人脸图像
Figure 327524DEST_PATH_IMAGE057
在第
Figure 574966DEST_PATH_IMAGE058
个特征层的第
Figure 583373DEST_PATH_IMAGE053
个通道的特征图中高度为
Figure 371200DEST_PATH_IMAGE059
宽度为
Figure 381619DEST_PATH_IMAGE050
处的特征值元素,
Figure 65542DEST_PATH_IMAGE060
表示高清人脸图像
Figure 295666DEST_PATH_IMAGE061
在第
Figure 90446DEST_PATH_IMAGE058
个特征层的第
Figure 235600DEST_PATH_IMAGE053
个通道的特征图中高度为
Figure 559265DEST_PATH_IMAGE059
宽度为
Figure 948789DEST_PATH_IMAGE050
处的特征值元素。
因此,超分损失函数就可以是上述第一超分损失函数
Figure 780216DEST_PATH_IMAGE062
和第二超分损失函数
Figure 266693DEST_PATH_IMAGE063
之和。
通过上述可以知道,通过人脸检测网络可以得到检测损失函数,通过人脸增强子网络可以得到颜色损失函数、纹理损失函数以及内容损失函数,人脸损失函数就可以是上述检测损失函数、颜色损失函数、纹理损失函数以及内容损失函数之和。
可选的,人脸增强网络除了可以使用从第一样本增强图像数据抠取下来的人脸图像进行训练,还可以使用不是由上述从第一样本增强图像数据抠取下来的人脸图像之外的人脸图像进行训练,通过结合两种人脸图像(一种是训练集(可以是任意包含待优化的人脸图像的训练集)中待训练的人脸图像(即不是从第一样本增强图像数据抠取下来的人脸图像),一种是通过画质增强网络所得到的第一样本增强图像数据中的人脸图像)来训练人脸增强网络,其训练效果可以更好。
步骤S105,调用图像处理网络对第二样本增强图像数据进行图像锐化处理,得到样本锐化图像数据,并根据样本锐化图像数据和高清图像数据生成锐化损失函数;
本申请中,可以将上述第二样本增强图像数据作为锐化网络的输入,服务器可以调用图像处理网络中的锐化网络对第二样本增强图像数据进行图像锐化处理,得到对第二样本增强图像数据进行图像锐化处理后的图像数据,可以将该图像数据称之为样本锐化图像数据。
其中,服务器可以通过样本锐化图像数据和高清图像数据生成锐化网络的损失函数,可以将该损失函数称之为锐化损失函数。该锐化损失函数可以包含两个部分,一部分是客观角度的损失函数,一部分是感官角度的损失函数,其中,客观角度的损失函数可以称之为质量损失函数,感官角度的损失函数可以称之为感知损失函数。
该质量损失函数可以是样本锐化图像数据和高清图像数据之间的峰值信噪比PSNR,该感知损失函数可以是通过样本锐化图像数据和高清图像数据之间的感知相似度得到,其中,该感知相似度可以通过样本锐化图像数据和高清图像数据之间的感知损失值(Learned Perceptual Image Patch Similarity,LPIPS)得到,感知损失值LPIPS越小,表明样本锐化图像数据和高清图像数据之间从感官层面上来说越相似,反之,感知损失值LPIPS越大,表明样本锐化图像数据和高清图像数据之间从感官层面上来说越不相似(即差异越大),因此,使用感知损失函数的目标就是使得样本锐化图像数据和高清图像数据之间的感知损失值达到最小。
因此,锐化损失函数就可以是上述质量损失函数和感知损失函数之和。
请参见图6,图6是本申请提供的一种获取损失函数的场景示意图。如图6所示,服务器可以将样本图像对输入超分网络,在超分网络中生成低清图像数据对应的样本超分图像数据,通过样本超分图像数据和高清图像数据可以生成超分损失函数。
服务器还可以继续将样本超分图像数据输入画质增强网络,在画质增强网络中生成第一样本增强图像数据,通过第一样本增强图像数据和高清图像数据可以生成画质损失函数。
服务器还可以将第一样本增强图像数据输入人脸增强网络,在人脸增强网络中生成对第一样本增强图像数据中的人脸图像进行增强后所得到的样本增强人脸图像,通过该样本增强人脸图像和高清图像数据中的高清人脸图像可以生成人脸损失函数。在人脸增强网络中还可以对样本增强人脸图像和第一样本增强图像数据进行融合,得到第二样本增强图像数据。
服务器还可以将第二样本增强图像数据输入锐化网络,在锐化网络中对第二样本增强图像数据进行锐化处理,得到样本锐化图像数据,通过样本锐化图像数据和高清图像数据就可以生成锐化损失函数。
步骤S106,根据超分损失函数、画质损失函数、人脸损失函数及锐化损失函数更新图像处理网络的网络参数,得到训练好的图像处理网络;
本申请中,图像处理网络的网络参数可以包含超分网络的网络参数、画质增强网络的网络参数、人脸增强网络的网络参数以及锐化网络的网络参数,服务器可以通过上述超分损失函数、画质损失函数、人脸损失函数以及锐化损失函数对图像处理网络的网络参数进行更新,其中,通过超分损失函数、画质损失函数、人脸损失函数以及锐化损失函数对图像处理网络的网络参数进行更新的方式有两种,具体如下:
图像处理网络中各个网络从前往后的顺序依次是超分网络、画质增强网络、人脸增强网络、锐化网络,其中,人脸增强网络从前往后又依次包含人脸检测网络、人脸增强子网络、人脸融合网络这3个对人脸图像进行处理的网络。由于损失函数可以在图像处理网络中往前进行传递,进而对所传递到的网络(如超分网络、画质增强网络、人脸增强网络和锐化网络)的网络参数进行更新,因此,对网络的网络参数进行更新的第一种方式可以是:可以将传递到某个网络的多个损失函数进行相加,进而通过相加后的损失函数直接对该个网络的网络参数进行更新即可;对网络的网络参数进行更新的第二种方式可以是:可以依次通过传递到某个网络的多个损失函数对该个网络的网络参数进行迭代更新。可以理解的是,此两种对网络的网络参数进行更新的方式所达到的对网络参数进行更新的效果相同。
具体的,超分损失函数往前传递只能传递给超分网络自己;画质损失函数往前传递可以传递给画质增强网络和超分网络;人脸损失函数往前传递可以传递给人脸增强网络、画质增强网络和超分网络,但是,需要进行说明的是,由于人脸增强网络从前往后又依次包含人脸检测网络、人脸增强子网络、人脸融合网络,因此,可以理解的是,在人脸增强网络内部,对于人脸损失函数的传递,传递到人脸检测网络的损失函数可以是人脸损失函数,传递到人脸增强子网络的损失函数可以是人脸损失函数中的颜色损失函数、纹理损失函数以及内容损失函数(即人脸增强子网络自己所生成的损失函数),而人脸损失函数不能往后传递给人脸融合网络;锐化损失函数往前传递可以传递给锐化网络、人脸增强网络、画质增强网络和超分网络。
因此,若通过上述第一种方式对各个网络的网络参数进行更新(即修正),则该过程可以是:可以将上述超分损失函数、画质损失函数、人脸损失函数以及锐化损失函数相加,进而通过相加后的损失函数更新超分网络的网络参数,可以得到训练好的超分网络;可以将上述画质损失函数、人脸损失函数以及锐化损失函数相加,进而通过相加后的损失函数更新画质增强网络的网络参数,可以得到训练好的画质增强网络;在人脸增强网络内部,可以将上述锐化损失函数和人脸损失函数相加,进而通过相加后的损失函数更新人脸检测网络的网络参数,还可以将上述锐化损失函数、颜色损失函数、纹理损失函数以及内容损失函数相加,进而通过相加后的损失函数更新人脸增强子网络的网络参数,还可以通过锐化损失函数更新人脸融合网络的网络参数,最后可以得到训练好的人脸增强网络;可以通过锐化损失函数更新锐化网络的网络参数,得到训练好的锐化网络。
若通过上述第二种方式对各个网络的网络参数进行更新(即修正),则该过程可以是:可以通过上述超分损失函数、画质损失函数、人脸损失函数以及锐化损失函数依次对超分网络的网络参数进行迭代更新,迭代更新后可以得到训练好的超分网络,如首先可以通过超分损失函数对超分网络的网络参数进行更新,进而,可以再通过画质损失函数对通过超分损失函数更新后的超分网络的网络参数进行更新,进而,可以再通过人脸损失函数对通过画质损失函数更新后的超分网络的网络参数进行更新,进而,可以再通过锐化损失函数对通过人脸损失函数更新后的超分网络的网络参数进行更新。
同理,可以通过上述画质损失函数、人脸损失函数以及锐化损失函数依次对画质增强网络的网络参数进行迭代更新,迭代更新后可以得到训练好的画质增强网络。
同理,可以通过锐化损失函数和人脸损失函数依次对人脸检测网络的网络参数进行迭代更新,迭代更新后可以得到训练好的人脸检测网络,可以通过锐化损失函数、颜色损失函数、纹理损失函数以及内容损失函数依次对人脸增强子网络的网络参数进行迭代更新,迭代更新后可以得到训练好的人脸增强子网络,可以通过锐化损失函数对人脸融合网络的网络参数进行更新,得到训练好的人脸融合网络,通过训练好的人脸检测网络、训练好的人脸增强子网络以及训练好的人脸融合网络即可得到训练好的人脸增强网络。可以通过锐化损失函数对锐化网络的网络参数进行更新,得到训练好的锐化网络。
因此,通过上述训练好的超分网络、训练好的画质增强网络、训练好的人脸增强网络和训练好的锐化网络即可生成(即得到)训练好的图像处理网络。训练好的图像处理网络就可以用于对视频数据或者图像数据进行全面的优化,具体可以参见下述图7对应实施例中的具体描述。
本申请中对各个网络(包括超分网络、画质增强网络、人脸增强网络以及锐化网络)进行关联训练,可以实现在保证各个网络自身的训练效果的前提下,也实现了各个网络之间相互促进相互融合的训练效果,使得所训练得到的图像处理网络更准确,因此通过训练得到的图像处理网络可以实现对图像数据更准确和更优异的优化效果。即在训练图像处理网络时,本申请提供了端到端(如整体上从超分网络这一端依次到锐化网络这一端)的多任务(训练一个网络可以是一个训练任务)联合训练框架,该联合训练框架是一种级联的框架,如从超分网络经过画质增强网络和人脸增强网络依次联结到锐化网络的框架,通过采用此种级联的框架来训练各个网络,可以使得各个网络之间的数据协同训练效果更好,并且可以实现不同任务之间的训练效果可以相互促进和融合,避免了任务间的冲突,实现了良好的综合效果。此外,通过切合实际的训练数据生成方案,包括降质核学习(如上述通过噪声学习网络获取样本图像对)、编解码模块随机生成数据(如上述通过目标码率对样本视频数据进行编解码的方式获取样本图像对)、仿真运动模糊(如上述通过对目标图像帧以及目标图像帧的相邻图像帧进行平均融合处理的方式获取样本图像对)和压缩噪声(如上述通过对高清图像数据进行失真格式转换的方式获取样本图像对),生成了分布广泛的训练数据,使得通过该训练数据所训练得到的图像处理网络可以适用于更广泛的图像优化场景,且具有更强的鲁棒性。
本申请可以获取样本图像对;样本图像对包含低清图像数据和高清图像数据,低清图像数据与高清图像数据具有相同的图像内容;调用图像处理网络将低清图像数据的分辨率调整到目标分辨率,得到样本超分图像数据,并根据样本超分图像数据和高清图像数据生成超分损失函数;调用图像处理网络对样本超分图像数据进行画质增强处理,得到第一样本增强图像数据,并根据第一样本增强图像数据和高清图像数据生成画质损失函数;调用图像处理网络对第一样本增强图像数据中的人脸图像进行人脸增强处理,得到样本增强人脸图像,并将样本增强人脸图像与第一样本增强图像数据进行融合,得到第二样本增强图像数据,以及根据样本增强人脸图像和高清图像数据中的人脸图像生成人脸损失函数;调用图像处理网络对第二样本增强图像数据进行图像锐化处理,得到样本锐化图像数据,并根据样本锐化图像数据和高清图像数据生成锐化损失函数;根据超分损失函数、画质损失函数、人脸损失函数及锐化损失函数更新图像处理网络的网络参数,得到训练好的图像处理网络。由此可见,本申请提出的方法可以对图像处理网络进行多任务(如包括超分任务、画质增强任务、人脸增强任务以及锐化任务)的相互关联相互融合地训练,使得训练后的图像处理网络在对图像同时进行多任务的优化时各个任务之间不会发生冲突,优化效果更好。
请参见图7,图7是本申请提供的一种图像处理方法的流程示意图。本申请实施例描述了对训练好的图像处理网络的应用过程,本申请实施例中所描述的内容可以与上述图3对应申请实施例中所描述的内容相结合,本申请实施例中的执行主体也可以是服务器。如图7所示,该方法可以包括:
步骤S201,调用训练好的图像处理网络获取初始图像数据对应的超分图像数据;超分图像数据的分辨率大于或等于目标分辨率;
本申请中,此处所需要调用的超分网络即为上述训练好的图像处理网络中的超分网络,即此处所调用的超分网络是训练好的超分网络。
其中,服务器可以获取到初始图像数据,该初始图像数据可以是任意一个需要进行优化的图像。由于在高分辨率的图像数据上作优化,其优化的效果可以更好,因此,服务器可以调用超分网络检测初始图像数据的分辨率,若检测到初始图像数据的分辨率小于目标分辨率,则表明初始图像数据是一个低分辨率的图像数据,因此可以调用超分网络提高初始图像数据的分辨率,如调用超分网络将初始图像数据的分辨率调整到目标分辨率(该目标分辨率可以是根据实际应用场景自行设置的一个高分辨率),进而可以将调整到目标分辨率的初始图像数据作为超分图像数据。
或者,若检测到初始图像数据的分辨率大于或等于目标分辨率,则表明初始图像数据自身就是一个高分辨率的图像数据,因此,不用再调整初始图像数据的分辨率,直接将初始图像数据作为超分图像数据。
步骤S202,调用训练好的图像处理网络对超分图像数据进行画质增强处理,得到第一增强图像数据;
本申请中,此处所需要调用的画质增强网络即为上述训练好的图像处理网络中的画质增强网络,即此处所调用的画质增强网络是训练好的画质增强网络。
由于进行超分后的图像的画质可能会不好,因此,服务器还可以调用画质增强网络对超分图像数据的画质进行整体的优化(即对超分图像数据进行画质增强处理),可以将通过画质增强网络对超分图像数据进行画质优化后的图像数据作为第一增强图像数据。
步骤S203,调用训练好的图像处理网络获取第一增强图像数据对应的第二增强图像数据;若第一增强图像数据中包含人脸图像,则第二增强图像数据是对第一增强图像数据中的人脸图像进行人脸增强后所得到的图像数据;
本申请中,此处所需要调用的人脸增强网络即为上述训练好的图像处理网络中的人脸增强网络,即此处所调用的人脸增强网络是训练好的人脸增强网络。
其中,所调用的人脸增强网络包含人脸检测网络(即人脸ROI)、人脸增强子网络和人脸融合网络,由于图像数据中的人脸通常属于比较重要的元素,因此,服务器还可以通过人脸检测网络对第一增强图像数据进行人脸检测,即检测第一增强图像数据中是否包含人脸图像。
若检测到第一增强图像数据不包含人脸图像,则可以直接将第一增强图像数据作为第二增强图像数据。
若检测到第一增强图像数据包含人脸图像,则可以调用人脸增强子网络对第一增强图像数据中的人脸图像进行优化,进而可以将进行人脸图像优化的第一增强图像数据作为第二增强图像数据。
其中,调用人脸增强子网络对第一增强图像数据中的人脸图像进行优化的过程可以是:
服务器可以调用人脸检测网络对第一增强图像数据中所检测到的人脸图像进行抠取,即可得到第一增强图像数据中的人脸图像,可以将该人脸图像称之为抠取人脸图像。
进而,服务器可以调用人脸增强子网络对抠取人脸图像进行人脸增强处理,即对抠取人脸图像进行人脸优化,可以将进行人脸优化的抠取人脸图像称之为增强人脸图像。
更多的,服务器还可以调用人脸融合网络生成人脸融合掩膜(即融合Mask),该人脸融合掩膜用于对增强人脸图像和第一增强图像数据进行加权融合,以得到第二增强图像数据。通过该自适应的人脸融合掩膜可以实现增强人脸图像和第一增强图像数据之间的无缝融合。
例如,可以将增强人脸图像表示为a,将人脸融合掩膜表示为b,将第一增强图像数据表示为c,那么,第二增强图像数据可以是ba+(1-b)c。
其中,对第一增强图像数据中的人脸图像进行增强以得到第二增强图像数据的过程与上述对第一样本增强图像数据中的人脸图像进行增强以得到第二样本增强图像数据的过程相同。
请参见图8,图8是本申请提供的一种对人脸进行优化的场景示意图。如图8所示,服务器可以将通过画质增强网络所得到的第一增强图像数据输入训练好的人脸检测网络,通过人脸检测网络可以对第一增强图像数据中的人脸图像进行抠取,可以得到抠取人脸图像,继而将抠取人脸图像输入训练好的人脸增强子网络,通过该人脸增强子网络可以对抠取人脸图像进行人脸增强,得到增强人脸图像。进而将增强人脸图像和第一增强图像数据输入人脸融合网络即可实现对增强人脸图像和第一增强图像数据的图像融合,最后得到第二增强图像数据。
步骤S204,调用训练好的图像处理网络对第二增强图像数据进行图像锐化处理,得到锐化图像数据,并输出锐化图像数据;
本申请中,此处所需要调用的锐化网络即为上述训练好的图像处理网络中的锐化网络,即此处所调用的锐化网络是训练好的锐化网络。
最后,可以再通过锐化网络对第二增强图像数据中的细节进行增强,使得细节更清晰。服务器可以调用锐化网络提取第二增强图像数据中的高频成分,如可以对第二增强图像数据进行高斯模糊后再与原本的第二增强图像数据作差,就可以得到第二增强图像数据中的高频图像信息(即高频成分)。
服务器还可以调用锐化网络生成第二增强图像数据的锐化掩膜,该锐化掩膜用于指示第二增强图像数据中需要进行锐化增强的细节部分,服务器可以将该锐化掩膜与第二增强图像数据进行点乘,得到第二增强图像数据中的锐化图像信息(即细节成分)。例如,服务器可以使用锐化网络中所包含的卷积层(如1*1的卷积层)和Prelu(激活层)来生成第二增强图像数据的锐化掩膜。
此外,通过锐化网络还可以生成针对上述高频图像信息的加权权重(可以称之为第一加权权重)、针对上述锐化图像信息的加权权重(可以称之为第二加权权重)以及针对第二增强图像数据的加权权重(可以称之为第三加权权重),进而通过第一加权权重、第二加权权重和第三加权权重对高频图像信息、锐化图像信息和第二增强图像数据进行对应加权求和,就可以得到锐化图像数据。
例如,可以将第一加权权重和高频图像信息之间的乘积作为第一加权结果,将第二加权权重和锐化图像信息之间的乘积作为第二加权结果,将第三加权权重和第二增强图像数据之间的乘积作为第三加权结果,进而将第一加权结果、第二加权结果和第三加权结果进行求和,就可以得到锐化图像数据。
该锐化图像数据就是对初始图像数据进行优化后所得到的最终的图像数据,服务器可以在图像处理网络中输出该锐化图像数据。其中,对第二增强图像数据进行增强得到锐化图像数据的过程与上述对第二样本增强图像数据进行增强得到样本锐化图像数据的过程相同。
请参见图9,图9是本申请提供的一种图像优化的场景示意图。如图9所示,服务器可以将初始图像数据输入训练好的图像处理网络,通过图像处理网络中的超分网络可以得到初始图像数据对应的超分图像数据。继而,通过画质增强网络可以对超分图像数据进行画质增强,得到第一增强图像数据。接着,通过人脸增强网络中的人脸检测网络可以抠取得到第一增强图像数据中的人脸图像(即抠取人脸图像),通过人脸增强子网络可以对该抠取人脸图像进行人脸增强,得到增强人脸图像,通过人脸融合网络可以对增强人脸图像和第一增强图像数据进行融合,即可得到第二增强图像数据。最后,通过锐化网络可以对第二增强图像数据进行锐化处理,得到锐化图像数据,可以输出该锐化图像数据。
其中,上述初始图像数据还可以是对视频数据进行分帧所得到的多个图像帧中的任一个图像帧,服务器可以是应用客户端的后台服务器,该视频数据可以是用于向应用客户端进行推送的数据。因此,服务器可以将视频数据所包含的每个图像帧都作为初始图像数据,并采用上述过程获取到视频数据所包含的每个图像帧分别对应的锐化图像数据,进而通过每个图像帧分别对应的锐化图像数据即可生成该视频数据的优化视频数据,该优化视频数据就是对该视频数据中每帧图像帧进行优化后所得到的视频数据。服务器可以将该优化视频数据推送给应用客户端,应用客户端就可以在客户端界面输出该优化视频数据,供用户浏览查看。
请参见图10,图10是本申请提供的一种数据推送的场景示意图。如图10所示,服务器可以对视频数据进行分帧,得到视频数据所包含的多个图像帧(如图像帧1~图像帧n),进而,服务器可以通过上述训练好的图像处理网络对分帧得到的每个图像帧进行优化,得到每个图像帧分别对应的锐化图像数据(如锐化图像数据1~锐化图像数据n)。
进而,通过每个图像帧分别对应的锐化图像数据即可得到视频数据的优化视频数据,服务器可以将该优化视频数据推送给应用客户端。
采用本申请所提供的方法,可以对图像数据的画质、色彩、纹理以及清晰度进行全面的增强,实现了对图像数据的多方面效果提升,对于局部人脸还有专门的加强效果,实现了全局和局部全面增强。
请参见图11,图11是本申请提供的一种图像处理网络的训练装置的结构示意图。该图像处理网络的训练装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该图像处理网络的训练装置为一个应用软件,该图像处理网络的训练装置可以用于执行本申请实施例提供的方法中的相应步骤。如图11所示,该图像处理网络的训练装置1可以包括:样本获取模块11、样本调用模块12、更新模块13。
样本获取模块11,用于获取样本图像对;样本图像对包含低清图像数据和高清图像数据,低清图像数据与高清图像数据具有相同的图像内容;
样本调用模块12,用于调用图像处理网络将低清图像数据的分辨率调整到目标分辨率,得到样本超分图像数据,并根据样本超分图像数据和高清图像数据生成超分损失函数;
样本调用模块12,用于调用图像处理网络对样本超分图像数据进行画质增强处理,得到第一样本增强图像数据,并根据第一样本增强图像数据和高清图像数据生成画质损失函数;
样本调用模块12,用于调用图像处理网络对第一样本增强图像数据中的人脸图像进行人脸增强处理,得到样本增强人脸图像,并将样本增强人脸图像与第一样本增强图像数据进行融合,得到第二样本增强图像数据,以及根据样本增强人脸图像和高清图像数据中的人脸图像生成人脸损失函数;
样本调用模块12,用于调用图像处理网络对第二样本增强图像数据进行图像锐化处理,得到样本锐化图像数据,并根据样本锐化图像数据和高清图像数据生成锐化损失函数;
更新模块13,用于根据超分损失函数、画质损失函数、人脸损失函数及锐化损失函数更新图像处理网络的网络参数,得到训练好的图像处理网络。
可选的,图像处理网络包括超分网络、画质增强网络、人脸增强网络和锐化网络;样本超分图像数据根据超分网络得到,第一样本增强图像数据根据画质增强网络得到,第二样本增强图像数据根据人脸增强网络得到,样本锐化图像数据根据锐化网络得到;
更新模块13根据超分损失函数、画质损失函数、人脸损失函数及锐化损失函数更新图像处理网络的网络参数,得到训练好的图像处理网络的方式,包括:
根据超分损失函数、画质损失函数、人脸损失函数及锐化损失函数更新超分网络的网络参数,得到训练好的超分网络;
根据画质损失函数、人脸损失函数及锐化损失函数更新画质增强网络的网络参数,得到训练好的画质增强网络;
根据人脸损失函数及锐化损失函数更新人脸增强网络的网络参数,得到训练好的人脸增强网络;
根据锐化损失函数更新锐化网络的网络参数,得到训练好的锐化网络;
根据训练好的超分网络、训练好的画质增强网络、训练好的人脸增强网络和训练好的锐化网络生成训练好的图像处理网络。
可选的,样本调用模块12根据样本超分图像数据和高清图像数据生成超分损失函数的方式,包括:
根据样本超分图像数据所包含的像素值元素和高清图像数据所包含的像素值元素,生成第一超分损失函数;
根据样本超分图像数据的特征图所包含的特征值元素和高清图像数据的特征图所包含的特征值元素,生成第二超分损失函数;
根据第一超分损失函数和第二超分损失函数,生成超分损失函数。
可选的,图像处理网络包括人脸增强网络,第二样本增强图像数据根据人脸增强网络得到,人脸增强网络包含人脸检测网络、颜色判别网络和纹理判别网络,第一样本增强图像数据中的人脸图像具有通过人脸检测网络所生成的人脸检测框、以及用于指示实际人脸位置的人脸标注框;
样本调用模块12根据样本增强人脸图像和高清图像数据中的人脸图像生成人脸损失函数的方式,包括:
根据人脸检测框和人脸标注框生成检测损失函数;
对高清图像数据中的人脸图像进行抠取,得到高清人脸图像;
根据高清人脸图像、样本增强人脸图像及颜色判别网络生成颜色损失函数;
根据高清人脸图像、样本增强人脸图像及纹理判别网络生成纹理损失函数;
根据样本增强人脸图像的特征图所包含的特征值元素和高清人脸图像的特征图所包含的特征值元素,生成内容损失函数;
根据检测损失函数、颜色损失函数、纹理损失函数和内容损失函数生成人脸损失函数。
可选的,样本调用模块12根据样本锐化图像数据和高清图像数据生成锐化损失函数的方式,包括:
根据样本锐化图像数据和高清图像数据之间的峰值信噪比,生成质量损失函数;
根据样本锐化图像数据和高清图像数据之间的感知相似度,生成感知损失函数;
根据质量损失函数和感知损失函数生成锐化损失函数。
可选的,样本获取模块11获取样本图像对的方式,包括:
获取样本视频数据;
对样本视频数据进行分帧,得到样本视频数据所包含的多个样本图像帧;
采用目标码率对样本视频数据进行编解码处理,得到样本视频数据对应的低质视频数据;低质视频数据的图像帧画质低于样本视频数据的图像帧画质,低质视频数据包含每个样本图像帧分别对应的低质图像帧,目标码率低于码率阈值;
根据每个样本图像帧与所对应的低质图像帧构建样本图像对。
可选的,样本获取模块11获取样本图像对的方式,包括:
获取样本视频数据;
对样本视频数据进行分帧,得到样本视频数据所包含的多个样本图像帧;
从多个样本图像帧中选取目标图像帧作为高清图像数据;
对目标图像帧和多个样本图像帧中目标图像帧的相邻图像帧进行平均融合处理,得到低清图像数据。
可选的,样本获取模块11获取样本图像对的方式,包括:
获取高清图像数据;
对高清图像数据进行高斯模糊处理,得到低清图像数据。
可选的,样本获取模块获取样本图像对的方式,包括:
获取高清图像数据;
对高清图像数据进行失真格式转换,得到低清图像数据。
可选的,样本获取模块11获取样本图像对的方式,包括:
获取高清图像数据;
获取样本低清视频数据,并将样本低清视频数据输入噪声学习网络;样本低清视频数据的清晰度低于清晰度阈值;
基于噪声学习网络学习样本低清视频数据的噪声数据;
在高清图像数据中融合噪声数据,得到低清图像数据。
根据本申请的一个实施例,图3所示的图像处理网络的训练方法所涉及的步骤可由图11所示的图像处理网络的训练装置1中的各个模块来执行。例如,图3中所示的步骤S101可由图11中的样本获取模块11来执行,图3中所示的步骤S102-步骤S105可由图11中的样本调用模块12来执行;图3中所示的步骤S106可由图11中的更新模块13来执行。
本申请可以获取样本图像对;样本图像对包含低清图像数据和高清图像数据,低清图像数据与高清图像数据具有相同的图像内容;调用图像处理网络将低清图像数据的分辨率调整到目标分辨率,得到样本超分图像数据,并根据样本超分图像数据和高清图像数据生成超分损失函数;调用图像处理网络对样本超分图像数据进行画质增强处理,得到第一样本增强图像数据,并根据第一样本增强图像数据和高清图像数据生成画质损失函数;调用图像处理网络对第一样本增强图像数据中的人脸图像进行人脸增强处理,得到样本增强人脸图像,并将样本增强人脸图像与第一样本增强图像数据进行融合,得到第二样本增强图像数据,以及根据样本增强人脸图像和高清图像数据中的人脸图像生成人脸损失函数;调用图像处理网络对第二样本增强图像数据进行图像锐化处理,得到样本锐化图像数据,并根据样本锐化图像数据和高清图像数据生成锐化损失函数;根据超分损失函数、画质损失函数、人脸损失函数及锐化损失函数更新图像处理网络的网络参数,得到训练好的图像处理网络。由此可见,本申请提出的装置可以对图像处理网络进行多任务(如包括超分任务、画质增强任务、人脸增强任务以及锐化任务)的相互关联相互融合地训练,使得训练后的图像处理网络在对图像同时进行多任务的优化时各个任务之间不会发生冲突,优化效果更好。
根据本申请的一个实施例,图11所示的图像处理网络的训练装置1中的各个模块可以分别或全部合并为一个或若干个单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个子单元,可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述模块是基于逻辑功能划分的,在实际应用中,一个模块的功能也可以由多个单元来实现,或者多个模块的功能由一个单元实现。在本申请的其它实施例中,图像处理网络的训练装置1也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算机设备上运行能够执行如图3中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图11中所示的图像处理网络的训练装置1,以及来实现本申请实施例的图像处理网络的训练方法。上述计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
请参见图12,图12是本申请提供的一种图像处理装置的结构示意图。该图像处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该图像处理装置为一个应用软件,该图像处理装置可以用于执行本申请实施例提供的方法中的相应步骤。如图12所示,该图像处理装置2可以包括:超分调用模块21、画质调用模块22、人脸调用模块23和锐化调用模块24;
超分调用模块21,用于调用训练好的图像处理网络获取初始图像数据对应的超分图像数据;超分图像数据的分辨率大于或等于目标分辨率;
画质调用模块22,用于调用训练好的图像处理网络对超分图像数据进行画质增强处理,得到第一增强图像数据;
人脸调用模块23,用于调用训练好的图像处理网络获取第一增强图像数据对应的第二增强图像数据;若第一增强图像数据中包含人脸图像,则第二增强图像数据是对第一增强图像数据中的人脸图像进行人脸增强后所得到的图像数据;
锐化调用模块24,用于调用训练好的图像处理网络对第二增强图像数据进行图像锐化处理,得到锐化图像数据,并输出锐化图像数据。
可选的,训练好的图像处理网络包括超分网络,超分调用模块21调用训练好的图像处理网络获取初始图像数据对应的超分图像数据的方式,包括:
获取初始图像数据;
调用超分网络检测初始图像数据的分辨率;
若初始图像数据的分辨率大于或等于目标分辨率,则将初始图像数据确定为超分图像数据;
若初始图像数据的分辨率小于目标分辨率,则调用超分网络将初始图像数据的分辨率调整到目标分辨率,得到超分图像数据。
可选的,训练好的图像处理网络包括人脸增强网络,人脸调用模块23调用训练好的图像处理网络获取第一增强图像数据对应的第二增强图像数据的方式,包括:
调用人脸增强网络对第一增强图像数据进行人脸检测;
若第一增强图像数据不包含人脸图像,则将第一增强图像数据确定为第二增强图像数据;
若第一增强图像数据包含人脸图像,则调用人脸增强网络对第一增强图像数据中的人脸图像进行人脸增强处理,得到第二增强图像数据。
可选的,人脸增强网络包含人脸检测网络、人脸增强子网络和人脸融合网络;
人脸调用模块23调用人脸增强网络对第一增强图像数据中的人脸图像进行人脸增强处理,得到第二增强图像数据的方式,包括:
调用人脸检测网络对第一增强图像数据中的人脸图像进行抠取,得到抠取人脸图像;
调用人脸增强子网络对抠取人脸图像进行人脸增强处理,得到增强人脸图像;
调用人脸融合网络生成人脸融合掩膜;
根据人脸融合掩膜对第一增强图像数据和增强人脸图像进行图像融合处理,得到第二增强图像数据。
可选的,训练好的图像处理网络包括锐化网络,锐化调用模块24调用训练好的图像处理网络对第二增强图像数据进行图像锐化处理,得到锐化图像数据的方式,包括:
调用锐化网络提取第二增强图像数据中的高频图像信息;
根据锐化网络生成针对第二增强图像数据的锐化掩膜,并根据锐化掩膜提取第二增强图像数据中的锐化图像信息;
根据锐化网络预测针对高频图像信息的第一加权权重、针对锐化图像信息的第二加权权重以及针对第二增强图像数据的第三加权权重;
根据第一加权权重、第二加权权重和第三加权权重对应对高频图像信息、锐化图像信息和第二增强图像数据进行加权求和,得到锐化图像数据。
可选的,初始图像数据是对视频数据进行分帧所得到的多个图像帧中任一个图像帧;上述装置2还用于:
根据多个图像帧中每个图像帧分别对应的锐化图像数据,生成视频数据的优化视频数据;
将优化视频数据推送给应用客户端,以使应用客户端输出优化视频数据。
根据本申请的一个实施例,图7所示的图像处理方法所涉及的步骤可由图12所示的图像处理装置2中的各个模块来执行。例如,图7中所示的步骤S201可由图12中的超分调用模块21来执行,图7中所示的步骤S202可由图12中的画质调用模块22来执行;图7中所示的步骤S203可由图12中的人脸调用模块23来执行,图7中所示的步骤S204可由图12中的锐化调用模块24来执行。
本申请可以获取样本图像对;样本图像对包含低清图像数据和高清图像数据,低清图像数据与高清图像数据具有相同的图像内容;调用图像处理网络将低清图像数据的分辨率调整到目标分辨率,得到样本超分图像数据,并根据样本超分图像数据和高清图像数据生成超分损失函数;调用图像处理网络对样本超分图像数据进行画质增强处理,得到第一样本增强图像数据,并根据第一样本增强图像数据和高清图像数据生成画质损失函数;调用图像处理网络对第一样本增强图像数据中的人脸图像进行人脸增强处理,得到样本增强人脸图像,并将样本增强人脸图像与第一样本增强图像数据进行融合,得到第二样本增强图像数据,以及根据样本增强人脸图像和高清图像数据中的人脸图像生成人脸损失函数;调用图像处理网络对第二样本增强图像数据进行图像锐化处理,得到样本锐化图像数据,并根据样本锐化图像数据和高清图像数据生成锐化损失函数;根据超分损失函数、画质损失函数、人脸损失函数及锐化损失函数更新图像处理网络的网络参数,得到训练好的图像处理网络。由此可见,本申请提出的装置可以对图像处理网络进行多任务(如包括超分任务、画质增强任务、人脸增强任务以及锐化任务)的相互关联相互融合地训练,使得训练后的图像处理网络在对图像同时进行多任务的优化时各个任务之间不会发生冲突,优化效果更好。
根据本申请的一个实施例,图12所示的图像处理装置2中的各个模块可以分别或全部合并为一个或若干个单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个子单元,可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述模块是基于逻辑功能划分的,在实际应用中,一个模块的功能也可以由多个单元来实现,或者多个模块的功能由一个单元实现。在本申请的其它实施例中,图像处理装置2也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算机设备上运行能够执行如图7中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图12中所示的图像处理装置2,以及来实现本申请实施例的图像处理网络的训练方法。上述计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
请参见图13,图13是本申请提供的一种计算机设备的结构示意图。如图13所示,计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图13所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图13所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取样本图像对;样本图像对包含低清图像数据和高清图像数据,低清图像数据与高清图像数据具有相同的图像内容;
调用图像处理网络将低清图像数据的分辨率调整到目标分辨率,得到样本超分图像数据,并根据样本超分图像数据和高清图像数据生成超分损失函数;
调用图像处理网络对样本超分图像数据进行画质增强处理,得到第一样本增强图像数据,并根据第一样本增强图像数据和高清图像数据生成画质损失函数;
调用图像处理网络对第一样本增强图像数据中的人脸图像进行人脸增强处理,得到样本增强人脸图像,并将样本增强人脸图像与第一样本增强图像数据进行融合,得到第二样本增强图像数据,以及根据样本增强人脸图像和高清图像数据中的人脸图像生成人脸损失函数;
调用图像处理网络对第二样本增强图像数据进行图像锐化处理,得到样本锐化图像数据,并根据样本锐化图像数据和高清图像数据生成锐化损失函数;
根据超分损失函数、画质损失函数、人脸损失函数及锐化损失函数更新图像处理网络的网络参数,得到训练好的图像处理网络。
处理器1001还可以用于调用存储器1005中存储的设备控制应用程序,以实现:
调用训练好的图像处理网络获取初始图像数据对应的超分图像数据;超分图像数据的分辨率大于或等于目标分辨率;
调用训练好的图像处理网络对超分图像数据进行画质增强处理,得到第一增强图像数据;
调用训练好的图像处理网络获取第一增强图像数据对应的第二增强图像数据;若第一增强图像数据中包含人脸图像,则第二增强图像数据是对第一增强图像数据中的人脸图像进行人脸增强后所得到的图像数据;
调用训练好的图像处理网络对第二增强图像数据进行图像锐化处理,得到锐化图像数据,并输出锐化图像数据。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图3对应实施例中对上述图像处理网络的训练方法的描述,也可执行前文图7所对应实施例中对上述图像处理方法的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请还提供了一种计算机可读存储介质,且计算机可读存储介质中存储有前文提及的图像处理网络的训练装置1和图像处理装置2所执行的计算机程序,且计算机程序包括程序指令,当处理器执行程序指令时,能够执行前文图3所对应实施例中对图像处理网络的训练方法的描述和前文图7对应实施例中对图像处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
作为示例,上述程序指令可被部署在一个计算机设备上执行,或者被部署位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链网络。
上述计算机可读存储介质可以是前述任一实施例提供的图像处理网络的训练装置或者上述计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flashcard)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前文图3对应实施例中对上述图像处理网络的训练方法的描述以及前文图7对应实施例中对图像处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (19)

1.一种图像处理网络的训练方法,其特征在于,所述方法包括:
获取样本图像对;所述样本图像对包含低清图像数据和高清图像数据,所述低清图像数据与所述高清图像数据具有相同的图像内容;
调用所述图像处理网络将所述低清图像数据的分辨率调整到目标分辨率,得到样本超分图像数据,并根据所述样本超分图像数据和所述高清图像数据生成超分损失函数;
调用所述图像处理网络对所述样本超分图像数据进行画质增强处理,得到第一样本增强图像数据,并根据所述第一样本增强图像数据和所述高清图像数据生成画质损失函数;
调用所述图像处理网络对所述第一样本增强图像数据中的人脸图像进行人脸增强处理,得到样本增强人脸图像,并将所述样本增强人脸图像与所述第一样本增强图像数据进行融合,得到第二样本增强图像数据,以及根据所述样本增强人脸图像和所述高清图像数据中的人脸图像生成人脸损失函数;
调用所述图像处理网络对所述第二样本增强图像数据进行图像锐化处理,得到样本锐化图像数据,并根据所述样本锐化图像数据和所述高清图像数据生成锐化损失函数;
根据所述超分损失函数、所述画质损失函数、所述人脸损失函数及所述锐化损失函数更新所述图像处理网络的网络参数,得到训练好的图像处理网络。
2.根据权利要求1所述的方法,其特征在于,所述图像处理网络包括超分网络、画质增强网络、人脸增强网络和锐化网络;所述样本超分图像数据根据所述超分网络得到,所述第一样本增强图像数据根据所述画质增强网络得到,所述第二样本增强图像数据根据所述人脸增强网络得到,所述样本锐化图像数据根据所述锐化网络得到;
所述根据所述超分损失函数、所述画质损失函数、所述人脸损失函数及所述锐化损失函数更新所述图像处理网络的网络参数,得到训练好的图像处理网络,包括:
根据所述超分损失函数、所述画质损失函数、所述人脸损失函数及所述锐化损失函数更新所述超分网络的网络参数,得到训练好的超分网络;
根据所述画质损失函数、所述人脸损失函数及所述锐化损失函数更新所述画质增强网络的网络参数,得到训练好的画质增强网络;
根据所述人脸损失函数及所述锐化损失函数更新所述人脸增强网络的网络参数,得到训练好的人脸增强网络;
根据所述锐化损失函数更新所述锐化网络的网络参数,得到训练好的锐化网络;
根据训练好的超分网络、训练好的画质增强网络、训练好的人脸增强网络和训练好的锐化网络生成训练好的图像处理网络。
3.根据权利要求1所述的方法,其特征在于,所述根据所述样本超分图像数据和所述高清图像数据生成超分损失函数,包括:
根据所述样本超分图像数据所包含的像素值元素和所述高清图像数据所包含的像素值元素,生成第一超分损失函数;
根据所述样本超分图像数据的特征图所包含的特征值元素和所述高清图像数据的特征图所包含的特征值元素,生成第二超分损失函数;
根据所述第一超分损失函数和所述第二超分损失函数,生成所述超分损失函数。
4.根据权利要求1所述的方法,其特征在于,所述图像处理网络包括人脸增强网络,所述第二样本增强图像数据根据所述人脸增强网络得到,所述人脸增强网络包含人脸检测网络、颜色判别网络和纹理判别网络,所述第一样本增强图像数据中的人脸图像具有通过所述人脸检测网络所生成的人脸检测框、以及用于指示实际人脸位置的人脸标注框;
所述根据所述样本增强人脸图像和所述高清图像数据中的人脸图像生成人脸损失函数,包括:
根据所述人脸检测框和所述人脸标注框生成检测损失函数;
对所述高清图像数据中的人脸图像进行抠取,得到高清人脸图像;
根据所述高清人脸图像、所述样本增强人脸图像及所述颜色判别网络生成颜色损失函数;
根据所述高清人脸图像、所述样本增强人脸图像及所述纹理判别网络生成纹理损失函数;
根据所述样本增强人脸图像的特征图所包含的特征值元素和所述高清人脸图像的特征图所包含的特征值元素,生成内容损失函数;
根据所述检测损失函数、所述颜色损失函数、所述纹理损失函数和所述内容损失函数生成所述人脸损失函数。
5.根据权利要求1所述的方法,其特征在于,所述根据所述样本锐化图像数据和所述高清图像数据生成锐化损失函数,包括:
根据所述样本锐化图像数据和所述高清图像数据之间的峰值信噪比,生成质量损失函数;
根据所述样本锐化图像数据和所述高清图像数据之间的感知相似度,生成感知损失函数;
根据所述质量损失函数和所述感知损失函数生成所述锐化损失函数。
6.根据权利要求1所述的方法,其特征在于,所述获取样本图像对,包括:
获取样本视频数据;
对所述样本视频数据进行分帧,得到所述样本视频数据所包含的多个样本图像帧;
采用目标码率对所述样本视频数据进行编解码处理,得到所述样本视频数据对应的低质视频数据;所述低质视频数据的图像帧画质低于所述样本视频数据的图像帧画质,所述低质视频数据包含每个样本图像帧分别对应的低质图像帧,所述目标码率低于码率阈值;
根据所述每个样本图像帧与所对应的低质图像帧构建所述样本图像对。
7.根据权利要求1所述的方法,其特征在于,所述获取样本图像对,包括:
获取样本视频数据;
对所述样本视频数据进行分帧,得到所述样本视频数据所包含的多个样本图像帧;
从所述多个样本图像帧中选取目标图像帧作为所述高清图像数据;
对所述目标图像帧和所述多个样本图像帧中所述目标图像帧的相邻图像帧进行平均融合处理,得到所述低清图像数据。
8.根据权利要求1所述的方法,其特征在于,所述获取样本图像对,包括:
获取所述高清图像数据;
对所述高清图像数据进行高斯模糊处理,得到所述低清图像数据。
9.根据权利要求1所述的方法,其特征在于,所述获取样本图像对,包括:
获取所述高清图像数据;
对所述高清图像数据进行失真格式转换,得到所述低清图像数据。
10.根据权利要求1所述的方法,其特征在于,所述获取样本图像对,包括:
获取所述高清图像数据;
获取样本低清视频数据,并将所述样本低清视频数据输入噪声学习网络;所述样本低清视频数据的清晰度低于清晰度阈值;
基于所述噪声学习网络学习所述样本低清视频数据的噪声数据;
在所述高清图像数据中融合所述噪声数据,得到所述低清图像数据。
11.一种图像处理方法,其特征在于,所述图像处理方法应用于训练好的图像处理网络中,训练好的图像处理网络是采用上述权利要求1-10任一项所述的方法进行训练;所述方法包括:
调用训练好的图像处理网络获取初始图像数据对应的超分图像数据;所述超分图像数据的分辨率大于或等于目标分辨率;
调用训练好的图像处理网络对所述超分图像数据进行画质增强处理,得到第一增强图像数据;
调用训练好的图像处理网络获取所述第一增强图像数据对应的第二增强图像数据;若所述第一增强图像数据中包含人脸图像,则所述第二增强图像数据是对所述第一增强图像数据中的人脸图像进行人脸增强后所得到的图像数据;
调用训练好的图像处理网络对所述第二增强图像数据进行图像锐化处理,得到锐化图像数据,并输出所述锐化图像数据。
12.根据权利要求11所述的方法,其特征在于,训练好的图像处理网络包括超分网络;所述调用训练好的图像处理网络获取初始图像数据对应的超分图像数据,包括:
获取所述初始图像数据;
调用所述超分网络检测所述初始图像数据的分辨率;
若所述初始图像数据的分辨率大于或等于所述目标分辨率,则将所述初始图像数据确定为所述超分图像数据;
若所述初始图像数据的分辨率小于所述目标分辨率,则调用所述超分网络将所述初始图像数据的分辨率调整到所述目标分辨率,得到所述超分图像数据。
13.根据权利要求11所述的方法,其特征在于,训练好的图像处理网络包括人脸增强网络;所述调用训练好的图像处理网络获取所述第一增强图像数据对应的第二增强图像数据,包括:
调用所述人脸增强网络对所述第一增强图像数据进行人脸检测;
若所述第一增强图像数据不包含人脸图像,则将所述第一增强图像数据确定为所述第二增强图像数据;
若所述第一增强图像数据包含人脸图像,则调用所述人脸增强网络对所述第一增强图像数据中的人脸图像进行人脸增强处理,得到所述第二增强图像数据。
14.根据权利要求13所述的方法,其特征在于,所述人脸增强网络包含人脸检测网络、人脸增强子网络和人脸融合网络;
所述调用所述人脸增强网络对所述第一增强图像数据中的人脸图像进行人脸增强处理,得到所述第二增强图像数据,包括:
调用所述人脸检测网络对所述第一增强图像数据中的人脸图像进行抠取,得到抠取人脸图像;
调用所述人脸增强子网络对所述抠取人脸图像进行人脸增强处理,得到增强人脸图像;
调用所述人脸融合网络生成人脸融合掩膜;
根据所述人脸融合掩膜对所述第一增强图像数据和所述增强人脸图像进行图像融合处理,得到所述第二增强图像数据。
15.根据权利要求11所述的方法,其特征在于,训练好的图像处理网络包括锐化网络;所述调用训练好的图像处理网络对所述第二增强图像数据进行图像锐化处理,得到锐化图像数据,包括:
调用所述锐化网络提取所述第二增强图像数据中的高频图像信息;
根据所述锐化网络生成针对所述第二增强图像数据的锐化掩膜,并根据所述锐化掩膜提取所述第二增强图像数据中的锐化图像信息;
根据所述锐化网络预测针对所述高频图像信息的第一加权权重、针对所述锐化图像信息的第二加权权重以及针对所述第二增强图像数据的第三加权权重;
根据所述第一加权权重、所述第二加权权重和所述第三加权权重对应对所述高频图像信息、所述锐化图像信息和所述第二增强图像数据进行加权求和,得到所述锐化图像数据。
16.根据权利要求11所述的方法,其特征在于,所述初始图像数据是对视频数据进行分帧所得到的多个图像帧中任一个图像帧;所述方法还包括:
根据所述多个图像帧中每个图像帧分别对应的所述锐化图像数据,生成所述视频数据的优化视频数据;
将所述优化视频数据推送给应用客户端,以使所述应用客户端输出所述优化视频数据。
17.一种图像处理网络的训练装置,其特征在于,所述装置包括:
获取样本图像对;所述样本图像对包含低清图像数据和高清图像数据,所述低清图像数据与所述高清图像数据具有相同的图像内容;
调用所述图像处理网络将所述低清图像数据的分辨率调整到目标分辨率,得到样本超分图像数据,并根据所述样本超分图像数据和所述高清图像数据生成超分损失函数;
调用所述图像处理网络对所述样本超分图像数据进行画质增强处理,得到第一样本增强图像数据,并根据所述第一样本增强图像数据和所述高清图像数据生成画质损失函数;
调用所述图像处理网络对所述第一样本增强图像数据中的人脸图像进行人脸增强处理,得到样本增强人脸图像,并将所述样本增强人脸图像与所述第一样本增强图像数据进行融合,得到第二样本增强图像数据,以及根据所述样本增强人脸图像和所述高清图像数据中的人脸图像生成人脸损失函数;
调用所述图像处理网络对所述第二样本增强图像数据进行图像锐化处理,得到样本锐化图像数据,并根据所述样本锐化图像数据和所述高清图像数据生成锐化损失函数;
根据所述超分损失函数、所述画质损失函数、所述人脸损失函数及所述锐化损失函数更新所述图像处理网络的网络参数,得到训练好的图像处理网络。
18.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1-10或11-16中任一项所述方法的步骤。
19.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适用于由处理器加载并执行权利要求1-10或11-16中任一项所述的方法。
CN202111188444.9A 2021-10-12 2021-10-12 图像处理网络的训练方法、装置、计算机设备和存储介质 Active CN113628116B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202111188444.9A CN113628116B (zh) 2021-10-12 2021-10-12 图像处理网络的训练方法、装置、计算机设备和存储介质
EP22880058.7A EP4300411A1 (en) 2021-10-12 2022-09-08 Training method and apparatus for image processing network, computer device, and storage medium
PCT/CN2022/117789 WO2023061116A1 (zh) 2021-10-12 2022-09-08 图像处理网络的训练方法、装置、计算机设备和存储介质
JP2023570432A JP2024517359A (ja) 2021-10-12 2022-09-08 画像処理ネットワークの訓練方法、装置、コンピュータ機器及びコンピュータプログラム
US18/207,572 US20230334833A1 (en) 2021-10-12 2023-06-08 Training method and apparatus for image processing network, computer device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111188444.9A CN113628116B (zh) 2021-10-12 2021-10-12 图像处理网络的训练方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN113628116A CN113628116A (zh) 2021-11-09
CN113628116B true CN113628116B (zh) 2022-02-11

Family

ID=78391165

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111188444.9A Active CN113628116B (zh) 2021-10-12 2021-10-12 图像处理网络的训练方法、装置、计算机设备和存储介质

Country Status (5)

Country Link
US (1) US20230334833A1 (zh)
EP (1) EP4300411A1 (zh)
JP (1) JP2024517359A (zh)
CN (1) CN113628116B (zh)
WO (1) WO2023061116A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113628116B (zh) * 2021-10-12 2022-02-11 腾讯科技(深圳)有限公司 图像处理网络的训练方法、装置、计算机设备和存储介质
CN115147280B (zh) * 2022-07-15 2023-06-02 北京百度网讯科技有限公司 深度学习模型的训练方法、图像处理方法、装置和设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107481188A (zh) * 2017-06-23 2017-12-15 珠海经济特区远宏科技有限公司 一种图像超分辨率重构方法
CN111242846A (zh) * 2020-01-07 2020-06-05 福州大学 基于非局部增强网络的细粒度尺度图像超分辨率方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108320267A (zh) * 2018-02-05 2018-07-24 电子科技大学 用于人脸图像的超分辨率处理方法
CN109615582B (zh) * 2018-11-30 2023-09-01 北京工业大学 一种基于属性描述生成对抗网络的人脸图像超分辨率重建方法
US11263726B2 (en) * 2019-05-16 2022-03-01 Here Global B.V. Method, apparatus, and system for task driven approaches to super resolution
CN113034358A (zh) * 2019-12-09 2021-06-25 华为技术有限公司 一种超分辨率图像处理方法以及相关装置
CN111179177B (zh) * 2019-12-31 2024-03-26 深圳市联合视觉创新科技有限公司 图像重建模型训练方法、图像重建方法、设备及介质
CN111462010A (zh) * 2020-03-31 2020-07-28 腾讯科技(深圳)有限公司 图像处理模型的训练方法、图像处理方法、装置及设备
CN111598182B (zh) * 2020-05-22 2023-12-01 北京市商汤科技开发有限公司 训练神经网络及图像识别的方法、装置、设备及介质
CN112085681B (zh) * 2020-09-09 2023-04-07 苏州科达科技股份有限公司 基于深度学习的图像增强方法、系统、设备及存储介质
CN114511449A (zh) * 2020-11-16 2022-05-17 株式会社理光 图像增强方法、装置及计算机可读存储介质
CN112598587B (zh) * 2020-12-16 2022-09-13 南京邮电大学 一种联合人脸去口罩和超分辨率的图像处理系统和方法
CN112927172B (zh) * 2021-05-10 2021-08-24 北京市商汤科技开发有限公司 图像处理网络的训练方法和装置、电子设备和存储介质
CN113628116B (zh) * 2021-10-12 2022-02-11 腾讯科技(深圳)有限公司 图像处理网络的训练方法、装置、计算机设备和存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107481188A (zh) * 2017-06-23 2017-12-15 珠海经济特区远宏科技有限公司 一种图像超分辨率重构方法
CN111242846A (zh) * 2020-01-07 2020-06-05 福州大学 基于非局部增强网络的细粒度尺度图像超分辨率方法

Also Published As

Publication number Publication date
CN113628116A (zh) 2021-11-09
US20230334833A1 (en) 2023-10-19
JP2024517359A (ja) 2024-04-19
EP4300411A1 (en) 2024-01-03
WO2023061116A1 (zh) 2023-04-20

Similar Documents

Publication Publication Date Title
US11310509B2 (en) Method and apparatus for applying deep learning techniques in video coding, restoration and video quality analysis (VQA)
CN113628116B (zh) 图像处理网络的训练方法、装置、计算机设备和存储介质
EP3583777A1 (en) A method and technical equipment for video processing
CN111263161B (zh) 视频压缩处理方法、装置、存储介质和电子设备
CN111460876A (zh) 用于识别视频的方法和装置
CN110852980A (zh) 交互式图像填充方法及系统、服务器、设备及介质
CN116233445B (zh) 视频的编解码处理方法、装置、计算机设备和存储介质
CN113724136A (zh) 一种视频修复方法、设备及介质
US20220335560A1 (en) Watermark-Based Image Reconstruction
CN116600119B (zh) 视频编码、解码方法、装置、计算机设备和存储介质
CN111741329B (zh) 一种视频处理方法、装置、设备及存储介质
US20220377342A1 (en) Video encoding and video decoding
CN116051662B (zh) 图像处理方法、装置、设备和介质
CN114140363B (zh) 视频去模糊方法及装置、视频去模糊模型训练方法及装置
CN112950501A (zh) 基于噪声场的图像降噪方法、装置、设备及存储介质
CN114586056A (zh) 图像处理方法及装置、设备、视频处理方法及存储介质
CN117576264B (zh) 图像生成方法、装置、设备及介质
CN117649358B (zh) 图像处理方法、装置、设备及存储介质
CN116309151A (zh) 图片去压缩失真网络的参数生成方法、装置和存储介质
US20230412825A1 (en) Video size reduction by reconstruction
CN116797466A (zh) 一种图像处理方法、装置、设备及可读存储介质
CN117689539A (zh) 一种图像超分处理方法、装置、计算机设备及介质
CN114299411A (zh) 一种数据处理方法以及计算机设备
CN117788979A (zh) 模型预训练方法、模型预训练装置、计算机设备和存储介质
CN116600114A (zh) 全景视频编码方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40055395

Country of ref document: HK