CN115205164B - 图像处理模型的训练方法、视频处理方法、装置及设备 - Google Patents
图像处理模型的训练方法、视频处理方法、装置及设备 Download PDFInfo
- Publication number
- CN115205164B CN115205164B CN202211120617.8A CN202211120617A CN115205164B CN 115205164 B CN115205164 B CN 115205164B CN 202211120617 A CN202211120617 A CN 202211120617A CN 115205164 B CN115205164 B CN 115205164B
- Authority
- CN
- China
- Prior art keywords
- sample
- image
- degradation
- processing model
- image processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 267
- 238000000034 method Methods 0.000 title claims abstract description 101
- 238000012549 training Methods 0.000 title claims abstract description 99
- 238000003672 processing method Methods 0.000 title abstract description 23
- 230000015556 catabolic process Effects 0.000 claims abstract description 202
- 238000006731 degradation reaction Methods 0.000 claims abstract description 202
- 238000003860 storage Methods 0.000 claims abstract description 17
- 238000010586 diagram Methods 0.000 claims description 66
- 230000008569 process Effects 0.000 claims description 40
- 230000006835 compression Effects 0.000 claims description 28
- 238000007906 compression Methods 0.000 claims description 28
- 238000005070 sampling Methods 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 23
- 230000015654 memory Effects 0.000 claims description 20
- 230000000593 degrading effect Effects 0.000 claims description 16
- 238000009826 distribution Methods 0.000 claims description 12
- 230000001419 dependent effect Effects 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 31
- 230000000694 effects Effects 0.000 description 20
- 238000010606 normalization Methods 0.000 description 20
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 13
- 238000004891 communication Methods 0.000 description 10
- 230000002093 peripheral effect Effects 0.000 description 10
- 230000001133 acceleration Effects 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000005520 cutting process Methods 0.000 description 7
- 230000004913 activation Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 6
- 230000006872 improvement Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 241000519995 Stachys sylvatica Species 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 239000000919 ceramic Substances 0.000 description 2
- 235000002566 Capsicum Nutrition 0.000 description 1
- 241000196324 Embryophyta Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 239000006002 Pepper Substances 0.000 description 1
- 235000016761 Piper aduncum Nutrition 0.000 description 1
- 235000017804 Piper guineense Nutrition 0.000 description 1
- 244000203593 Piper nigrum Species 0.000 description 1
- 235000008184 Piper nigrum Nutrition 0.000 description 1
- 241001131927 Placea Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000000423 heterosexual effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4046—Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Processing (AREA)
Abstract
本申请提供了一种图像处理模型的训练方法、视频处理方法、装置及设备,属于多媒体技术领域。所述方法包括:对于任一第一样本图像,基于至少一种降质操作,对所述第一样本图像进行降质,得到第二样本图像;在所述第一样本图像中随机添加第一样本文本,在所述第二样本图像中随机添加第二样本文本;基于图像处理模型对所述第二样本图像进行处理,得到样本结果图像;基于所述样本结果图像与所述第一样本图像之间的差异,对所述图像处理模型进行训练,以得到目标图像处理模型。上述技术方案,基于目标图像处理模型能够提高图像的清晰度,在对视频帧处理时,能够在不改变视频分辨率的前提下,使视频的清晰度提高,不会显著增加传输带宽和存储空间。
Description
技术领域
本申请涉及多媒体技术领域,特别涉及一种图像处理模型的训练方法、视频处理方法、装置及设备。
背景技术
随着互联网技术的发展,观看视频已成为一种较为广泛的消遣娱乐方式。由于清晰度低的视频在观看时给观众对象带来的体验较差,因此如何提高视频的清晰度是需要解决的问题。
目前,通常是采用图像超分辨率技术来对视频进行处理,以将视频中的各个视频帧由低分辨率映射为高分辨率,从而提高视频的清晰度。
上述技术方案存在的问题是,分辨率大幅度提高会导致视频所需的传输带宽以及存储空间大幅度的增加,降低了视频的传输效率和存储效率。
发明内容
本申请实施例提供了一种图像处理模型的训练方法、视频处理方法、装置及设备,使得训练得到的目标图像处理模型能够提高图像的清晰度,从而在基于该目标图像处理模型对视频中的视频帧进行处理后,能够在不改变视频帧的分辨率的前提下,使视频帧的清晰度大幅度提高,进而得到清晰度提高的视频,使观众对象有更好的观看体验。所述技术方案包括以下步骤。
一方面,提供了一种图像处理模型的训练方法,所述方法包括:
对于任一第一样本图像,基于至少一种降质操作,对所述第一样本图像进行降质,得到所述第一样本图像对应的第二样本图像,所述降质操作用于在不改变图像分辨率的情况下降低图像的清晰度;
在所述第一样本图像中随机添加第一样本文本,在所述第二样本图像中随机添加第二样本文本,所述第二样本文本的对比度小于所述第一样本文本的对比度;
基于图像处理模型对所述第二样本图像进行处理,得到样本结果图像,所述图像处理模型用于提高输入的图像的清晰度,所述样本结果图像的清晰度高于所述第二样本图像的清晰度;
基于所述样本结果图像与所述第一样本图像之间的差异,对所述图像处理模型进行训练,以得到目标图像处理模型。
另一方面,提供了一种视频处理方法,所述方法包括:
对待处理的第一视频进行解码,得到多个第一视频帧;
基于目标图像处理模型对所述多个第一视频帧进行处理,得到多个第二视频帧,所述目标图像处理模型通过上述的图像处理模型的训练方法训练得到,所述第二视频帧的清晰度高于所述第一视频帧的清晰度;
对所述多个第二视频帧进行编码,得到第二视频。
另一方面,提供了一种图像处理模型的训练装置,所述装置包括:
降质模块,用于对于任一第一样本图像,基于至少一种降质操作,对所述第一样本图像进行降质,得到所述第一样本图像对应的第二样本图像,所述降质操作用于在不改变图像分辨率的情况下降低图像的清晰度;
添加模块,用于在所述第一样本图像中随机添加第一样本文本,在所述第二样本图像中随机添加第二样本文本,所述第二样本文本的对比度小于所述第一样本文本的对比度;
样本处理模块,用于基于图像处理模型对所述第二样本图像进行处理,得到样本结果图像,所述图像处理模型用于提高输入的图像的清晰度,所述样本结果图像的清晰度高于所述第二样本图像的清晰度;
训练模块,用于基于所述样本结果图像与所述第一样本图像之间的差异,对所述图像处理模型进行训练,以得到目标图像处理模型。
在一些实施例中,所述样本处理模块,包括:
样本标准化单元,用于基于所述图像处理模型中的标准化层,对所述第二样本图像进行标准化,得到样本标准化图像;
样本第一卷积单元,用于基于所述图像处理模型中的第一卷积层,对所述样本标准化图像进行卷积,得到第一样本特征图;
样本处理单元,用于基于所述图像处理模型中的残差层,对所述第一样本特征图进行处理,得到第二样本特征图;
样本第二卷积单元,用于基于所述图像处理模型中的第二卷积层,对所述第二样本特征图进行卷积,得到第三样本特征图;
样本反标准化单元,用于基于所述图像处理模型中的反标准化层,对所述第三样本特征图进行反标准化,得到所述样本结果图像。
在一些实施例中,所述降质模块,用于基于降质操作池中包括的降质操作的第一数量,确定第二数量,所述第二数量不大于所述第一数量,所述第二数量用于表示对所述第一样本图像进行降质的次数;对于任一次降质,从所述降质操作池中不放回抽样得到本次降质的降质操作,基于所述降质操作对所述第一样本图像进行降质;响应于完成所述第二数量次的降质,得到所述第二样本图像。
在一些实施例中,所述降质操作为下-上采样;所述降质模块,用于从多个插值算子中随机选取一个插值算子,得到目标插值算子;从多个缩放因子中随机选取一个缩放因子,得到目标缩放因子;基于所述目标插值算子与所述目标缩放因子,对所述第一样本图像进行下采样,得到下采样图像;基于所述目标插值算子,对所述下采样图像进行上采样。
在一些实施例中,所述降质操作为各向异性高斯核模糊;所述降质模块,用于随机生成一个各向异性高斯核;基于所述各向异性高斯核,对所述第一样本图像进行卷积。
在一些实施例中,所述降质操作为各向同性高斯核模糊;所述降质模块,用于随机生成一个各向同性高斯核;基于所述各向同性高斯核,对所述第一样本图像进行卷积。
在一些实施例中,所述降质操作为像素独立的高斯噪声叠加;所述降质模块,用于对于所述第一样本图像中的任一像素点,基于高斯分布,为所述像素点随机生成一个噪声值;将所述像素点的像素值与所述噪声值相加。
在一些实施例中,所述降质操作为像素非独立的局部噪声叠加;所述降质模块,用于随机从所述第一样本图像获取多个目标像素点;对于任一目标像素点,在所述目标像素点的邻域内添加乘性均匀噪声。
在一些实施例中,所述降质操作为格式压缩;所述降质模块,用于从压缩质量分数范围内随机选取一个压缩质量分数,得到目标压缩质量分数;基于所述目标压缩质量分数,对所述第一样本图像进行压缩。
在一些实施例中,所述装置还包括:
概率确定模块,用于对于任一次降质,确定本次降质的跳过概率;
跳过模块,用于在所述跳过概率不小于概率阈值的情况下,跳过本次降质。
另一方面,提供了一种视频处理的装置,所述装置包括:
解码模块,用于对待处理的第一视频进行解码,得到多个第一视频帧;
处理模块,用于基于目标图像处理模型对所述多个第一视频帧进行处理,得到多个第二视频帧,所述目标图像处理模型通过上述图像处理模型的训练方法训练得到,所述第二视频帧的清晰度高于所述第一视频帧的清晰度;
编码模块,用于对所述多个第二视频帧进行编码,得到第二视频。
在一些实施例中,所述处理模块,包括:
标准化单元,用于对于任一第一视频帧,基于所述目标图像处理模型中的标准化层,对所述第一视频帧进行标准化,得到标准化图像;
第一卷积单元,用于基于所述目标图像处理模型中的第一卷积层,对所述标准化图像进行卷积,得到第一特征图;
处理单元,用于基于所述目标图像处理模型中的残差层,对所述第一特征图进行处理,得到第二特征图;
第二卷积单元,用于基于所述目标图像处理模型中的第二卷积层,对所述第二特征图进行卷积,得到第三特征图;
反标准化单元,用于基于所述目标图像处理模型中的反标准化层,对所述第三特征图进行反标准化,得到所述第一视频帧对应的第二视频帧。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器用于存储至少一段计算机程序,所述至少一段计算机程序由所述处理器加载并执行以实现本申请实施例中的图像处理模型的训练方法。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器用于存储至少一段计算机程序,所述至少一段计算机程序由所述处理器加载并执行以实现本申请实施例中的视频处理方法。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储有至少一段计算机程序,所述至少一段计算机程序用于执行以实现如本申请实施例中的图像处理模型的训练方法。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储有至少一段计算机程序,所述至少一段计算机程序用于执行以实现如本申请实施例中的视频处理方法。
另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行以实现本申请实施例中提供的图像处理模型的训练方法。
另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行以实现本申请实施例中提供的视频处理方法。
本申请实施例提供了一种图像处理模型的训练方法,由于降质操作可以在不改变图像分辨率的情况下,降低图像的清晰度,通过对第一样本图像进行各不相同的至少一种降质操作,使得得到的第二样本图像的内容和分辨率与第一样本图像相同,但是清晰度低于第一样本图像的清晰度,然后,在第一样本图像中随机添加第一样本文本,在第二样本图像中随机添加第二样本文本,从而基于第一样本图像和第二样本图像训练图像处理模型时,能够使图像处理模型学习到清晰度不同的两个样本图像之间的差异,从而训练得到的目标图像处理模型能够提高图像的清晰度。在基于该目标图像处理模型对视频中的视频帧进行处理后,能够在不改变视频帧的分辨率的前提下,使视频帧的清晰度大幅度提高,进而得到清晰度提高的视频,使观众对象有更好的观看体验。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本申请实施例提供的一种图像处理模型的训练方法的实施环境示意图;
图2是根据本申请实施例提供的一种图像处理模型的训练方法的流程图;
图3是根据本申请实施例提供的一种视频处理方法的流程图;
图4是根据本申请实施例提供的一种另一种视频处理的流程图;
图5是根据本申请实施例提供的一种对样本图像进行随机裁块的示意图;
图6是根据本申请实施例提供的一种对第一样本图像进行降质的示意图;
图7是根据本申请实施例提供的一种第一样本文本的效果图;
图8是根据本申请实施例提供的一种在第一样本图像中随机添加第一样本文本的示意图;
图9是根据本申请实施例提供的一种第二样本文本的效果图;
图10是根据本申请实施例提供的一种在第二样本图像中随机添加第二样本文本的示意图;
图11是根据本申请实施例提供的一种图像处理模型的结构示意图;
图12是根据本申请实施例提供的一种模型训练的流程示意图;
图13是根据本申请实施例提供的一种应用目标图像处理模型进行视频处理的流程示意图;
图14是根据本申请实施例提供的一种文本清晰度提高的效果展示图;
图15是根据本申请实施例提供的一种图像清晰度提高的效果展示图;
图16是根据本申请实施例提供的一种图像处理效果的对比示意图;
图17是根据本申请实施例提供的一种图像处理模型的训练装置的框图;
图18是根据本申请实施例提供的另一种图像处理模型的训练装置的框图;
图19是根据本申请实施例提供的一种视频处理装置的框图;
图20是根据本申请实施例提供的另一种视频处理装置的框图;
图21是根据本申请实施例提供的一种终端的结构框图;
图22是根据本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。
本申请中术语“至少一个”是指一个或多个,“多个”的含义是指两个或两个以上。
需要说明的是,本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
以下,对本申请涉及的术语进行解释。
2K分辨率高质量图像(DIVerse 2K resolution high quality images,DIV2K)是一种超分数据集,一共包含有风景、人、动物、植物、建筑、环境、物体等1000张2K分辨率的RGB图像,其中800张为训练集,100张为验证集,100张为测试集。
高清人脸数据集(Flickr-Faces-High-Quality,FFHQ)是一个背景、配饰较多样的人脸特写图片集,共含有70000张高清晰度的图片,每张图片的分辨率为1024x1024。
专业生产内容(Professionally-Generated Content,PGC)是经由传统广电业者按照几乎与电视节目无异的方式进行制作,但在内容的传播层面,却必须按照互联网的传播特性进行调整。
不放回抽样:一种抽样方法,是在逐个抽取个体时,每次被抽到的个体不放回总体中参加下一次抽取的方法。
下-上采样:对原图像的分辨率进行特定倍数的缩小后重新放大为原分辨率。
残差块:使用了跳跃连接的双卷积层结构。
误差反向传播:一种与优化器(如梯度下降法)结合使用的,用来训练神经网络的常见方法。该方法对神经网络中所有参数计算损失函数的梯度,这个梯度会反馈给优化器,用来更新参数以最小化损失函数。
优化器:根据梯度引导神经网络更新参数的方法。
本申请实施例提供的图像处理模型的训练方法及视频处理方法,能够由计算机设备执行。在一些实施例中,该计算机设备为终端或服务器。图1是根据本申请实施例提供的一种图像处理模型的训练方法实施环境示意图。参见图1,该实施环境包括终端101和服务器102。可选地,视频处理方法的实施环境与图像处理模型的训练的实施环境相似,不再赘述。
终端101和服务器102能够通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
在一些实施例中,终端101是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能电视、智能手表等,但并不局限于此。终端101安装和运行有支持视频播放的应用程序。
在一些实施例中,服务器102是独立的物理服务器,也能够是多个物理服务器构成的服务器集群或者分布式系统,还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器102用于为支持视频播放的应用程序提供后台服务。在一些实施例中,服务器102承担主要计算工作,终端101承担次要计算工作;或者,服务器102承担次要计算工作,终端101承担主要计算工作;或者,服务器102和终端101二者之间采用分布式计算架构进行协同计算。
图2是根据本申请实施例提供的一种图像处理模型的训练方法的流程图,如图2所示,在本申请实施例中以由服务器执行为例进行说明。该图像处理模型的训练方法包括以下步骤。
201、对于任一第一样本图像,服务器基于至少一种降质操作,对第一样本图像进行降质,得到第一样本图像对应的第二样本图像,降质操作用于在不改变图像分辨率的情况下降低图像的清晰度。
在本申请实施例中,服务器维护有一个降质操作池,该降质操作池中包括多种降质操作。每种降质操作均可以在不改变图像分辨率的情况下降低图像清晰度。对于任一第一样本图像,服务器能够确定对该第一样本图像进行降质的降质次数和每次降质时降质操作的类型,以对该第一样本图像进行至少一种降质操作,得到清晰度降低的第二样本图像。通过基于至少一种降质操作,使得得到的第二样本图像的分辨率与第一样本图像相同,但清晰度低于第一样本图像的清晰度。
202、服务器在第一样本图像中随机添加第一样本文本,在第二样本图像中随机添加第二样本文本,第二样本文本的对比度小于第一样本文本的对比度。
在本申请实施例中,对于任一第一样本图像,服务器在该第一样本图像中随机添加第一样本文本。该第一样本文本为文字的亮度、色彩与文字包边的亮度、色彩之间的对比度在预设的第一对比范围内的文本。该第一对比范围用于表示对比度大于对比度阈值的范围。然后,对于该第一样本图像降质后的得到的第二样本图像,若服务器在该第一样本图像中添加了第一样本文本,那么服务器可以在该第二样本图像中添加第一样本文本对应的第二样本文本;若服务器没有在该第一样本图像中添加第一样本文本,那么服务器就不需要在第二样本图像中添加第二样本文本。其中,该第二样本文本为文字的亮度、色彩与文字包边的亮度、色彩之间的对比度在预设的第二对比范围内的文本。该第二对比范围用于表示对比度不大于对比度阈值的范围。通过对第一样本图像和第二样本图像随机添加样本文本,为后续对图像处理模型进行训练提供了支持。
203、服务器基于图像处理模型对第二样本图像进行处理,得到样本结果图像,图像处理模型用于提高输入的图像的清晰度,样本结果图像的清晰度高于第二样本图像的清晰度。
在本申请实施例中,服务器基于图像处理模型对第二样本图像进行处理,该图像处理模型包括标准化层、第一卷积层、残差层、第二卷积层以及反标准化层,该图像处理模型的结构使得经过模型处理后能够得到分辨率不变,清晰度提高的图像。因此,服务器可以基于图像处理模型,得到分辨率不发生变化,但图像清晰度高于第二样本图像清晰度的样本结果图像。
204、服务器基于样本结果图像与第一样本图像之间的差异,对图像处理模型进行训练,以得到目标图像处理模型。
在本申请实施例中,服务器基于图像处理模型得到了清晰度高于第二样本图像清晰度的样本结果图像,该样本结果图像与第一样本图像的分辨率相同。样本结果图像的清晰度与第一样本图像的清晰度之间的差异能够表示图像处理模型的训练效果。因此,服务器可以通过该差异来更新图像处理模型的模型参数,以实现对图像处理模型的训练,使得能够得到一个在图像分辨率不发生变化的情况下,提高图像清晰度的目标图像处理模型。
本申请实施例提供了一种图像处理模型的训练方法,由于降质操作可以在不改变图像分辨率的情况下,降低图像的清晰度,通过对第一样本图像进行各不相同的至少一种降质操作,使得得到的第二样本图像的内容和分辨率与第一样本图像相同,但是清晰度低于第一样本图像的清晰度,然后,在第一样本图像中随机添加第一样本文本,在第二样本图像中随机添加第二样本文本,从而基于第一样本图像和第二样本图像训练图像处理模型时,能够使图像处理模型学习到清晰度不同的两个样本图像之间的差异,从而训练得到的目标图像处理模型能够提高图像的清晰度。在基于该目标图像处理模型对视频中的视频帧进行处理后,能够在不改变视频帧的分辨率的前提下,使视频帧的清晰度大幅度提高,进而得到清晰度提高的视频,使观众对象有更好的观看体验。
图3是根据本申请实施例提供的一种视频处理方法的流程图,如图3所示,在本申请实施例中以由服务器执行为例进行说明。该视频处理方法包括以下步骤。
301、服务器对待处理的第一视频进行解码,得到多个第一视频帧。
在本申请实施例中,观众对象可以通过终端从服务器获取视频进行观看,由于清晰度低的视频会给观众对象带来不好的观看体验,因此服务器可以对视频进行处理,提高视频的清晰度,然后将提高了清晰度的视频发送给终端。服务器在对视频进行处理时,首先将待处理的第一视频进行解码为多个第一视频帧,然后再对各个第一视频帧分别进行处理,提高各个视频帧的清晰度,从而达到提高第一视频的清晰度的目的。可选地,服务器可以采用并行的方式对多个第一视频帧处理,以提高视频帧的处理效率。
302、服务器基于目标图像处理模型对多个第一视频帧进行处理,得到多个第二视频帧,目标图像处理模型通过上述步骤201至步骤204中的图像处理模型的训练方法训练得到,第二视频帧的清晰度高于第一视频帧的清晰度。
在本申请实施例中,服务器能够基于多个第一样本图像和对第一样本图进行降质操作后得到的第二样本图像,对图像处理模型进行训练以得到一个目标图像处理模型。由于降质操作可以在不改变图像分辨率的情况下,降低图像的清晰度。使得上述训练得到的目标图像处理模型在对视频帧进行处理时,能够在不改变视频帧的分辨率的情况下,提高视频帧的清晰度。因此,服务器基于该目标图像处理模型对第一视频帧进行处理,能够得到该第一视频帧对应的第二视频帧。该第二视频帧相较于第一视频帧,在不改变分辨率的前提下提高了清晰度。
303、服务器对多个第二视频帧进行编码,得到第二视频。
在本申请实施例中,服务器在基于目标图像处理模型对上述多个第一视频帧处理完毕后,能够对提高了清晰度的多个第二视频帧进行编码,得到第二视频。该第二视频相较于第一视频,视频大小基本无变化,但是视频的整体清晰度大幅度提高,服务器可以将该第二视频发送到观众对象的终端上,使观众对象有更好的观看体验。
本申请实施例提供了一种视频处理的方法,由于降质操作可以在不改变图像分辨率的情况下,降低图像的清晰度,使得基于第一样本图像和第二样本图像训练得到的目标图像处理模型,在对第一视频中的多个第一视频帧进行处理时,能够在不改变第一视频帧的分辨率的情况下,提高第一视频帧的清晰度,得到多个提高了清晰度的第二视频帧。最后对该多个第二视频帧进行编码,即可得到提高了清晰度的第二视频。第二视频相较于第一视频,整体清晰度大幅度提高,使得观众对象有更好的观看体验。
图4是根据本申请实施例提供的另一种视频处理的流程图,如图4所示,在本申请实施例中以由服务器执行为例进行说明。该视频处理方法包括以下步骤。
401、服务器获取多个第一样本图像。
在本申请实施例中,服务器首先获取图像训练集,该图像训练集中包括清晰度高于清晰度阈值的多个样本图像。对于任一样本图像,服务器可以对该样本图像进行随机裁块,得到多个第一样本图像,该多个第一样本图像之间可以存在相同部分,也可以完全不同,从而在训练过程中可以充分利用上同一张图像内的各个局部图像。本申请实施例对随机裁切得到的图像块的分辨率不进行限制,也即对第一样本图像的分辨率不进行限制。通过对样本图像进行随机裁块,可以在保持较大的训练批次的情况下,显著减轻GPU(Graphics Processing Unit,图像处理器)显存的压力。
例如,图像训练集可以由DIV2K图片集、FFHQ图片集或其他图片集中的至少一个组成。以从DIV2K图片集中获取前800张图片以及从FFHQ图片集的前1000张中随机获取300张图片为例进行说明。服务器将上述获取到的共计1100张图片作为图像训练集。可选地,为了更好地适配专业生产内容场景,服务器可以将图像训练集中属于FFHQ图片集的300张图片缩放至512x512分辨率。对于任一样本图像,服务器从该样本图像中随机裁切出一个或者多个分辨率为192x192的图像块,作为第一样本图像。图5是根据本申请实施例提供的一种对样本图像进行随机裁块的示意图。参见图5所示,随机挑选图像训练集中的三个样本图像,以随机裁块得到192x192的图像块为例,对该三个样本图像分别进行随机裁块,得到三个第一样本图像。其中,对于样本图像501,由于该样本图像501属于DIV2K图片集,不需要进行缩放,服务器直接对该样本图像501进行随机裁块得到192x192的图像块,作为第一样本图像502;对于样本图像503,由于该样本图像503属于DIV2K图片集,不需要进行缩放,服务器对样本图像503进行随机裁块得到192x192的图像块,作为第一样本图像504;对于样本图像505,由于该样本图像505属于DIV2K图片集,不需要缩放,服务器直接对样本图像505进行随机裁块得到192x192的图像块,作为第一样本图像506。
需要说明的是,上述对样本图像进行随机裁块为可选步骤,服务器还可以将图像训练集中的样本图像直接作为第一样本图像。
402、对于任一第一样本图像,服务器基于至少一种降质操作,对第一样本图像进行降质,得到第一样本图像对应的第二样本图像,降质操作用于在不改变图像分辨率的情况下降低图像的清晰度。
在本申请实施例中,服务器维护有一个降质操作池,该降质操作池中包括多种降质操作,如下-上采样、各向异性高斯核模糊、各向同性高斯核模糊、像素独立的高斯噪声叠加、像素非独立的局部噪声叠加以及格式压缩等。对于任一第一样本图像,服务器能够确定对该第一样本图像进行降质的降质次数和每次降质时降质操作的类型,以对该第一样本图像进行至少一种降质操作,得到该第一样本图像对应的第二样本图像。该第二样本图像的清晰度低于第一样本图像的清晰度。
例如,图6是根据本申请实施例提供的一种对第一样本图像进行降质的示意图。如图6所示,以三个第一样本图像为例,服务器分别对该三个第一样本图像进行降质。对于任一第一样本图像,服务器随机确定对该第一样本图像进行降质的降质次数和每次降质时降质操作的类型,以对该第一样本图像进行至少一种降质操作,得到该第一样本图像对应的清晰度降低的第二样本图像。
在一些实施例中,对于任一第一样本图像,服务器能够先随机确定对该第一样本图像进行降质的次数,然后,每一次进行降质时,服务器能够从降质操作池中进行不放回抽样,以确定此次降质的降质操作的类型,进而基于该类型的降质操作,对第一样本图像进行降质。相应的,服务器基于降质操作池中包括的降质操作的第一数量,确定第二数量。然后,对于任一次降质,服务器从降质操作池中不放回抽样得到本次降质的降质操作,基于降质操作对第一样本图像进行降质。最后,响应于完成第二数量次的降质,服务器得到第二样本图像。其中,该第二数量用于表示对第一样本图像进行降质的次数,因此该第二数量不大于第一数量,即不大于降质操作池中包括的降质操作的总数量。通过随机确定对第一样本图像进行降质的次数,在每次进行降质时,从降质操作池中进行不放回抽样,以得到降质操作,使得降质得到的第二样本图像具有随机性,能够提高图像处理模型的训练效果。
在一些实施例中,对于每一次降质,服务器基于本次降质的跳过概率决定是否跳过,若跳过本次降质,服务器继续决定下一次降质是否跳过。相应的,对于任一次降质,服务器确定本次降质的跳过概率。然后,在跳过概率不小于概率阈值的情况下,服务器跳过本次降质;在跳过概率小于概率阈值的情况下,服务器执行本次降质,从降质操作池中进行不放回抽样,以确定此次降质的降质操作。其中,该跳过概率为服务器随机确定的概率,该概率阈值用于判断本次降质是否跳过,本申请实施例对该概率阈值不进行限制。通过基于跳过概率与概率阈值的关系,确定降质操作是否执行,使得图像处理模型的训练过程中的降质操作具有随机性。
下面分别以降质操作为下-上采样、各向异性高斯核模糊、各向同性高斯核模糊、像素独立的高斯噪声叠加、像素非独立的局部噪声叠加、格式压缩这六种情况为例,来介绍服务器对第一样本图像进行降质操作的过程。
情况一,降质操作为下-上采样时,服务器先对第一样本图像进行下采样,再对第一样本图像进行上采样,达到模糊第一样本图像的目的,也即使第一样本图像的清晰度降低。相应的,服务器从多个插值算子中随机选取一个插值算子,得到目标插值算子。然后,服务器从多个缩放因子中随机选取一个缩放因子,得到目标缩放因子。然后,基于目标插值算子与目标缩放因子,对第一样本图像进行下采样,得到下采样图像。最后,基于目标插值算子,对下采样图像进行上采样。其中,该多个插值算子包括最近邻插值算子、双线性插值算子以及双三次插值算子等,本申请实施例对此不进行限制。该缩放因子可以为2.0、2.5或3.0等,本申请实施例对此不进行限制。需要说明的是,服务器可以等概率的从多个差值算子中随机选取出目标插值算子,也可以根据不同概率选取目标差值算子。同样,服务器可以等概率的从多个缩放因子中随机选取目标缩放因子,也可以根据不同概率选取目标缩放因子。
在一些实施例中,服务器可以通过公式(1)来对第一样本图像进行下-上采样。
其中,表示对第一样本图像进行下-上采样后得到的输出图像;表示基于将第一样本图像缩放至分辨率为的插值函数,表示目标插值算子;表示第一样本图像的分辨率的高;表示第一样本图像的分辨率的宽;表示目标缩放因子;表示第一样本图像。
情况二,降质操作为各向异性高斯核模糊时,服务器基于各向异性高斯核对第一样本图像进行卷积,达到模糊第一样本图像的目的,也即使第一样本图像的清晰度降低。相应的,服务器随机生成一个各向异性高斯核,然后,基于该各向异性高斯核,服务器对第一样本图像进行卷积。
在一些实施例中,服务器可以通过公式(2)来对第一样本图像进行各向异性高斯核模糊。
其中,表示第一样本图像进行各向异性高斯核模糊后得到的输出图像;表示一种进行卷积的函数;表示进行降质操作的第一样本图像;表示各向异性高斯核的参数矩阵,设的尺寸为(2b+1,2b+1),那么该参数矩阵在位置上的参数为下述公式(3)所示。其中,表示各向异性高斯核的核尺寸相关量,能够在预设范围中随机取得。
情况三,降质操作为各向同性高斯核模糊时,服务器基于各向同性高斯核对第一样本图像进行卷积,达到模糊第一样本图像的目的,也即使第一样本图像清晰度的降低。相应的,服务器随机生成一个各向同性高斯核,然后,基于该各向同性高斯核,对第一样本图像进行卷积。降质操作为各向同性高斯核模糊进行降质的方式与各向异性高斯核模糊的处理方式同理,参见情况二所示。需要说明的是,降质操作为各向同性高斯核模糊时,和的取值是相等的。
情况四,降质操作为像素独立的高斯噪声叠加时,服务器对第一样本图像上的每个像素随机添加一个噪声值,达到添加噪声扰乱第一样本图像的目的,也即使第一样本图像的清晰度降低。相应的,对于第一样本图像中的任一像素点,基于高斯分布,服务器为像素点随机生成一个噪声值,然后,服务器将像素点的像素值与噪声值相加。
在一些实施例中,服务器可以通过公式(4)来对第一样本图像进行像素独立的高斯噪声叠加。
其中,表示第一样本图像进行像素独立的高斯噪声叠加后得到的输出图像在位置上的像素值;表示第一样本图像在位置上的像素值;表示噪声水平,可以在预设范围中随机取得,本申请实施例对预设范围不进行限制;表示在位置上的高斯噪声,该噪声对应的下述公式(5)所示的高斯分布的概率密度函数。
情况五,降质操作为像素非独立的局部噪声叠加时,服务器在第一样本图像的部分像素点的邻域内添加乘性均匀噪声,达到噪声扰乱的目的,也即使图像清晰度降低。相应的,服务器随机从第一样本图像获取多个目标像素点,然后,对于任一目标像素点,在目标像素点的邻域内添加乘性均匀噪声。其中,目标像素点的邻域的高和宽在预设范围中随机取得,本申请实施例对预设范围不进行限制。
在一些实施例中,服务器可以通过公式(6)来对第一样本图像进行像素非独立的局部噪声叠加。
其中,表示第一样本图像中目标像素点的邻域,表示第一样本图像中内位置上进行像素非独立的局部噪声叠加后的像素值;表示第一样本图像中内位置上的像素值;表示通过下限为,上限为的均匀分布随机取得的乘性噪声因子,均匀分布的上下限可以为0.045和-0.045,本申请实施例对此不进行限制。
情况六,降质操作为格式压缩时,服务器能够对第一样本图像进行格式压缩,达到在第一样本图像中制造伪影和块效应的目的,也即使第一样本图像的清晰度降低。相应的,服务器从压缩质量分数范围内随机选取一个压缩质量分数,得到目标压缩质量分数,然后,服务器基于该目标压缩质量分数,对第一样本图像进行压缩。其中,该压缩质量分数范围可以是,本申请实施例对此范围不进行限制。
在一些实施例中,服务器可以通过公式(7)来对第一样本图像进行格式压缩。
例如,降质操作池中有6种降质操作,即第一数量为6。服务器随机确定对第一样本图像进行降质的次数为3,即第二数量为3。对于第一次降质,服务器确定的跳过概率为0.6,大于预设的概率阈值0.5,那么第一次降质将被跳过;对于第二次降质,服务器确定的跳过概率为0.4,小于概率阈值0.5,那么第二次降质将会执行,服务器从降质操作池中进行不放回抽样,以得到降质操作为下-上采样,基于该降质操作对第一样本图像进行降质;对于第三次降质,服务器确定的跳过概率为0.3,小于概率阈值0.5,那么第三次降质将会执行,服务器从降质操作池中进行不放回抽样,以得到降质操作为格式压缩,此时降质操作池中没有上一次降质时服务器抽取到的下-上采样降质操作。服务器基于格式压缩降质操作对上述降质后的第一样本图像再次进行降质,此时服务器已完成第二数量次的降质,得到第二样本图像。由于进行了降质,第二样本图像的清晰度小于第一样本图像的清晰度。
需要说明的是,本申请实施例以上述六种降质操作方式为例,对第一样本图像进行降质,也可以采用上-下采样、椒盐噪声叠加、H264/H265/H266/AV1编码压缩等其他不改变分辨率的降质操作,本申请实施例对此不进行限制。
403、服务器在第一样本图像中随机添加第一样本文本。
在本申请实施例中,对于任一第一样本图像,服务器在该第一样本图像中随机添加第一样本文本。该第一样本文本为文字的亮度、色彩与文字包边的亮度、色彩之间的对比度在预设的第一对比范围内的文本。该第一对比范围用于表示对比度大于对比度阈值的范围。
例如,图7是根据本申请实施例提供的一种第一样本文本的效果图。如图7所示,该第一样本文本的文本内容为中文字,文字颜色为白色,文字包边颜色为黑色,且该第一样本文本的文字的亮度、色彩与文字包边的亮度、色彩之间的对比度在第一对比范围内。图8是根据本申请实施例提供的一种在第一样本图像中随机添加第一样本文本的示意图。如图8所示,以三个第一样本图像为例,在该三个第一样本图像中随机添加第一样本文本。对于第一样本图像801,服务器根据预设概率确定添加第一样本文本,该第一样本文本的对比度在预设的第一对比范围内,位于第一样本图像的上方,文字内容为中文字,文字颜色为白色,文字包边颜色为黑色,文字大小为10号字,得到带有第一样本文本的第一样本图像802;对于第一样本图像803,服务器根据预设概率确定不添加第一样本文本,得到第一样本图像804;对于第一样本图像805,服务器根据预设概率确定添加第一样本文本,该第一样本文本的对比度在预设的第一对比范围内,位于第一样本图像的右下方,文字内容为字幕,文字颜色为蓝色,文字包边颜色为黑色,文字大小为14号字,得到带有第一样本文本的第一样本图像806。
404、服务器在第二样本图像中随机添加第二样本文本,第二样本文本的对比度小于第一样本文本的对比度。
在本申请实施例中,对于第一样本图像降质后的第二样本图像,服务器可以在该第二样本图像中随机添加第二样本文本。其中,该第二样本文本为文字的亮度、色彩与文字包边的亮度、色彩之间的对比度在预设的第二对比范围内的文本。该第二对比范围用于表示对比度不大于对比度阈值的范围。
需要说明的是,上述步骤403和步骤404是可选步骤,服务器根据预设概率随机确定是否添加第一样本文本,若服务器确定添加第一样本文本,则在预设范围内随机确定第一样本文本中文字的数量、大小、亮度、色彩、内容和位置。本申请实施例对预设概率以及预设范围不进行限制。
可选地,若服务器在第一样本图像中添加第一样本文本,则服务器也在第二样本图像中添加第二样本文本;若服务器未在第一样本图像中添加第一样本文本,则服务器不需要在第二样本图像中添加第二样本文本。
例如,图9是根据本申请实施例提供的一种第二样本文本的效果图。如图9所示,该第二样本文本与上述第一样本文本对应,且对比度小于上述第一样本文本。其中,该第二样本文本的文本内容为中文字,文字颜色为白色,文字包边颜色为黑色,且该第二样本文本的文字的亮度、色彩与文字包边的亮度、色彩在第二对比范围内。图10是根据本申请实施例提供的一种在第二样本图像中随机添加第二样本文本的示意图。参见图10所示,以上述三个第一样本图像对应的第二样本图像为例,在该三个第二样本图像中随机添加第二样本文本。对于第二样本图像1001,服务器在该第二样本图像1001对应的第一样本图像添加了第一样本文本,那么在该第二样本图像中要添加第二样本文本,该第二样本文本的对比度属于第二对比范围,文字数量、大小、内容和位置均与第一样本文本一致,得到带有第二样本文本的第二样本图像1002;对于第二样本图像1003,由于服务器未在该第二样本图像对应的第一样本图像中第一样本文本,那么对该第二样本图像也不需要添加第二样本文本,得到第二样本图像1004;对于第二样本图像1005,服务器在该第二样本图像1005对应的第一样本图像添加了第一样本文本,那么在该第二样本图像中要添加第二样本文本,该第二样本文本的对比度属于第二对比范围,也即第二样本文本的对比度小于第一样本文本的对比度,而第二样本文本的文字数量、大小、内容和位置均与第一样本文本一致,得到带有第二样本文本的第二样本图像1006。
405、服务器基于图像处理模型对第二样本图像进行处理,得到样本结果图像。
在本申请实施例中,该图像处理模型包括标准化层、第一卷积层、残差层、第二卷积层以及反标准化层,服务器能够基于该图像处理模型对第二样本图像进行处理,得到样本结果图像。其中,该标准化层用于对图像进行标准化;该第一卷积层用于对图像进行卷积,得到图像对应的特征图,从而膨胀特征图的通道数;该残差层用于获取图像更深层的特征图;该第二卷积层用于对图像进行两次卷积,得到图像对应的特征图,从而收缩特征图的通道数;该反标准化层用于对特征图进行反标准化,得到清晰度提高的图像。图像处理模型的处理过程,通过下述五个步骤实现。
步骤一,服务器基于图像处理模型中的标准化层,对该第二样本图像进行标准化,得到样本标准化图像。
在一些实施例中,服务器可以通过公式(8)来对第二样本图像进行标准化。
步骤二,服务器基于图像处理模型中的第一卷积层,对样本标准化图像进行卷积,得到第一样本特征图。
在一些实施例中,服务器可以通过公式(9)来对样本标准化图像进行卷积。
其中,表示第一样本特征图;表示第一卷积层的卷积函数,该卷积层输入3通道的图像,输出通道的特征图,可以根据实际资源、算力和效率的需要,选取16、32、48、64等任意数值,本申请实施例对此不进行限制;表示上述样本标准化图像。
步骤三,服务器基于图像处理模型中的残差层,对第一样本特征图进行处理,得到第二样本特征图。
在一些实施例中,服务器可以通过公式(10)来对第一样本特征图进行处理。
其中,表示第二样本特征图;表示残差层中包括的残差块的数量,可以根据实际资源、算力和效率的需要,选取8、12、16、20等任意数值,本申请实施例对此不进行限制;表示第个残差块的计算函数,对于任一残差块,该残差块包括一个卷积层、一次激活函数、再一个卷积层和再一次激活函数的计算,下述公式(11)所示为一个残差块的计算过程。
步骤四,服务器基于图像处理模型中的第二卷积层,对第二样本特征图进行卷积,得到第三样本特征图。其中,该第二卷积层包括两个子卷积层,分别为子卷积层1和子卷积层2。
在一些实施例中,服务器可以通过公式(13)来对第二样本特征图进行卷积。
其中,表示经过第二卷积层得到的第三样本特征图;表示第二卷积层包括的子卷积层,该子卷积层输入通道的特征图,输出3通道的特征图;表示第二卷积层包括的另一个子卷积层,该子卷积层输入通道的特征图,输出通道的特征图。
步骤五,服务器基于图像处理模型中的反标准化层,对第三样本特征图进行反标准化,得到样本结果图像。
在一些实施例中,服务器可以通过公式(14)来对第三样本特征图进行反标准化。
需要说明的是,本申请实施例以采用基于残差块的卷积神经网络为例,对第二样本图像进行处理,得到样本结果图像,也可以采用基于其他卷积结构设计的神经网络、基于GAN训练的神经网络、基于Transformer的神经网络、基于标准化流的神经网络等任意可学习的神经网络,本申请实施例对此不进行限制。
406、服务器基于样本结果图像与第一样本图像之间的差异,对图像处理模型进行训练,以得到目标图像处理模型。
在本申请实施例中,服务器能够获取样本结果图像与第一样本图像之间的差异,然后,服务器能够基于该差异通过误差反向传播及优化器以的学习率来更新图像处理模型的模型参数,以实现对模型的训练。其中,该差异即为图像处理模型在训练过程中的训练损失。通过由于样本结果图像基于第二样本图像得到,而第二样本图像基于第一样本图像降质得到,因此基于该样本结果图像与第一样本图像之间的差异对模型参数进行更新,以得到能够较好的提高视频帧清晰度的目标图像处理模型。
在一些实施例中,服务器可以通过下述公式(15)计算训练损失。
其中,表示训练损失,也可以采用损失函数、感知损失函数或小波系数损失函数等,本申请实施例对此不进行限制;表示样本结果图像;表示第一样本图像;、、表示样本结果图像和第一样本图像的高、宽、通道数;表示*在行列通道位置上像素的强度值。
需要说明的是,图像处理模型的训练过程需要多个轮次,对于任一轮次,该轮次可以分为多个批次。对于任一批次的训练,服务器从上述图像训练集中不放回抽样多个第一样本图像进行训练,在对该多个第一样本图像训练完成后,将上述多个第一样本图像放回到图像训练集中。上述步骤401至步骤406为任一个批次的训练过程。在完成多个轮次的训练后,服务器得到一个能够提高视频清晰度的目标图像处理模型。本申请实施例对模型训练的轮次以及批次不进行限制。
为了使服务器基于图像处理模型对第二样本图像进行处理,得到样本结果图像的过程更容易理解。下面对图像处理模型的结构进行介绍,图11是根据本申请实施例提供的一种图像处理模型的结构示意图。参见图11所示,该图像处理模型包括:标准化层1101,服务器可以基于标准化层1101对第二样本图像进行标准化,得到样本标准化图像。第一卷积层1102,服务器可以基于第一卷积层1102对样本标准化图像进行卷积,得到第一样本特征图。残差层1103,服务器可以基于残差层中的多个残差块对第二样本图像进行处理。每个残差块包括两个卷积层和两个激活函数,用于对第一样本特征图依次进行一次卷积、一次激活函数、再一次卷积和再一次激活函数的处理。第一样本特征图经过多个残差块的处理后,得到第二样本特征图。第二卷积层1104,服务器可以基于第二卷积层对第二样本特征图进行卷积,第二卷积层中包括两个子卷积层,经过两次卷积后,得到第三样本特征图。反标准化层1105,服务器可以基于反标准化层对第三样本特征图进行反标准化,得到样本结果图像。最后,服务器可以基于样本结果图像与带有第一样本文本的第一样本图像之间的差异,基于损失函数计算出训练损失。
为了使上述步骤401至步骤406所描述的模型训练步骤更容易理解,参见图12所示,图12是根据本申请实施例提供的一种模型训练的流程示意图,包括以下步骤。1201、服务器获取图像训练集,图像训练集包括DIV2K图片集及FFHQ图片集中的多个样本图像。1202、对于任一批次中的任一样本图像,对该样本图像进行随机裁块得到第一样本图像。1203、服务器随机获取对于第一样本图像进行降质的第二数量次,对于任一次降质,服务器从降质操作池中进行不放回抽样,以得到本次降质的类型,在不改变图像分辨率的情况下对第一样本图像进行降质,在完成第二数量次的降质后得到清晰度降低的第二样本图像。1204、服务器在第一样本图像中随机添加第一样本文本。1205、服务器在第二样本图像中添加第一样本文本对应的第二样本文本。1206、服务器基于图像处理模型中的标准化层、第一卷积层、残差层、第二卷积层以及反标准化层,依次对带有第二样本文本的第二样本图像进行处理,得到样本结果图像。1207、服务器基于该样本结果图像与带有第一样本文本的第一样本图像之间的差异,获取训练损失,再基于该训练损失对图像处理模型的模型参数进行更新,以实现对图像处理模型的训练。
407、服务器对待处理的第一视频进行解码,得到多个第一视频帧。
在本申请实施例中,服务器能够通过解码应用程序或其他视频解码方式,对待处理的第一视频进行解码,得到多个第一视频帧。然后,服务器能够通过上述训练得到的目标图像处理模型,对各个第一视频帧分别进行处理,提高该多个第一视频帧的清晰度,从而为观众对象提供清晰度高的视频。可选地,服务器可以采用并行的方式对多个第一视频帧处理,以提高视频帧的处理效率。
需要说明的是,服务器可以不对解码后的第一视频进行上述步骤401中的随机裁块步骤。该第一视频帧的分辨率可以为192x192、512x512或1024x1024,本申请实施例对此不进行限制。
408、服务器基于目标图像处理模型对多个第一视频帧进行处理,得到多个第二视频帧,第二视频帧的清晰度高于第一视频帧的清晰度。
在本申请实施例中,服务器能够基于上述训练得到的目标图像处理模型,对多个第一视频帧进行处理,得到清晰度提高的多个第二视频帧。相应的,对于任一第一视频帧,服务器基于目标图像处理模型中的标准化层,对第一视频帧进行标准化,得到标准化图像。然后,服务器基于目标图像处理模型中的第一卷积层,对标准化图像进行卷积,得到第一特征图。然后,服务器基于目标图像处理模型中的残差层,对第一特征图进行处理,得到第二特征图。然后,服务器基于目标图像处理模型中的第二卷积层,对第二特征图进行卷积,得到第三特征图。最后,服务器基于目标图像处理模型中的反标准化层,对第三特征图进行反标准化,得到第一视频帧对应的第二视频帧。详细处理过程参见上述步骤405中的五个步骤,在此不再赘述。通过基于目标图像处理模型对第一视频帧进行处理,能够在不大幅度改变视频帧的分辨率的情况下,得到清晰度更高的视频帧。
409、服务器对多个第二视频帧进行编码,得到第二视频。
在本申请实施例中,服务器基于训练得到的目标图像处理模型,在不改变视频分辨率的情况下,能够得到清晰度提高的第二视频帧。服务器可以通过编码应用程序或其他视频编码方式对该多个第二视频帧进行编码,得到第二视频。该第二视频具有高清晰度,能够使得观众对象有更好的观看体验。
需要说明的是,为了进一步说明使用目标图像处理模型对视频进行处理,得到清晰度提高的视频的过程,图13是根据本申请实施例提供的一种应用目标图像处理模型进行视频处理的流程示意图。参见图13所示,服务器对第一视频进行解码,得到多个第一视频帧,然后,服务器基于目标图像处理模型对多个第一视频帧并行处理,得到清晰度提高的多个第二视频帧。最后,服务器对多个第二视频帧进行编码,得到清晰度提高的第二视频。
需要说明的是,为了进一步说明本申请实施例提供的方案所训练得到的目标图像处理模型的效果,参见图14所示,图14是根据本申请实施例提供的一种文本清晰度提高的效果展示图。基于目标图像处理模型对图14中的(1)进行处理,得到文本清晰度提高后的图14中的(2)。图15是根据本申请实施例提供的一种图像清晰度提高的效果展示图。参见图15所示,图15中的(1)、(3)和(5)为待处理的图像,基于目标图像处理模型对上述待处理的图像进行处理,得到清晰度提高后的图15中的(2)、(4)和(6)。
需要说明的是,为了验证本申请实施例提供的方案所训练得到的目标图像处理模型的效果,通过对同一图像进行不同方式的处理,来比较本申请提供的方案与现有方案的效果。图16是根据本申请实施例提供的一种图像处理效果的对比示意图。参见图16所示,图16中的(1)示例性的示出了现有方案对图像进行清晰度提高处理后的效果,可见图像出现明显的白点;图16中的(2)示例性的示出了本申请方案对图像进行清晰度提高处理后的效果,图像没有出现白点。图16中的(3)示例性的示出了现有方案对文本进行清晰度提高处理后的效果,可见文本周围出现明显泛亮现象;图16中的(4)示例性的示出了本申请方案对文本进行清晰度提高处理后,文本周围没有出现泛亮的现象。图16中的(5)示例性的示出了现有方案对图像进行清晰度提高处理后的效果,图像背景噪声强度过高;图16中的(6)示例性的示出了本申请方案对图像进行清晰度提高处理后,图像背景噪声强度适宜。
本申请实施例提供了一种图像处理模型的训练方法,由于降质操作可以在不改变图像分辨率的情况下,降低图像的清晰度,通过对第一样本图像进行各不相同的至少一种降质操作,使得得到的第二样本图像的内容和分辨率与第一样本图像相同,但是清晰度低于第一样本图像的清晰度,然后,在第一样本图像中随机添加第一样本文本,在第二样本图像中随机添加第二样本文本,从而基于第一样本图像和第二样本图像训练图像处理模型时,能够使图像处理模型学习到清晰度不同的两个样本图像之间的差异,从而训练得到的目标图像处理模型能够提高图像的清晰度。在基于该目标图像处理模型对视频中的视频帧进行处理后,能够在不改变视频帧的分辨率的前提下,使视频帧的清晰度大幅度提高,进而得到清晰度提高的视频,使观众对象有更好的观看体验。
图17是根据本申请实施例提供的一种图像处理模型的训练装置的框图。参见图17,装置包括:降质模块1701、添加模块1702、样本处理模块1703、训练模块1704:
降质模块1701,用于对于任一第一样本图像,基于至少一种降质操作,对第一样本图像进行降质,得到第一样本图像对应的第二样本图像,降质操作用于在不改变图像分辨率的情况下降低图像的清晰度;
添加模块1702,用于在第一样本图像中随机添加第一样本文本,在第二样本图像中随机添加第二样本文本,第二样本文本的对比度小于第一样本文本的对比度;
样本处理模块1703,用于基于图像处理模型对第二样本图像进行处理,得到样本结果图像,图像处理模型用于提高输入的图像的清晰度,样本结果图像的清晰度高于第二样本图像的清晰度;
训练模块1704,用于基于样本结果图像与第一样本图像之间的差异,对图像处理模型进行训练,以得到目标图像处理模型。
在一些实施例中,图18是根据本申请实施例提供的另一种图像处理模型的训练装置的框图。参见图18所示,样本处理模块1703,包括:
样本标准化单元17031,用于基于图像处理模型中的标准化层,对第二样本图像进行标准化,得到样本标准化图像;
样本第一卷积单元17032,用于基于图像处理模型中的第一卷积层,对样本标准化图像进行卷积,得到第一样本特征图;
样本处理单元17033,用于基于图像处理模型中的残差层,对第一样本特征图进行处理,得到第二样本特征图;
样本第二卷积单元17034,用于基于图像处理模型中的第二卷积层,对第二样本特征图进行卷积,得到第三样本特征图;
样本反标准化单元17035,用于基于图像处理模型中的反标准化层,对第三样本特征图进行反标准化,得到样本结果图像。
在一些实施例中,降质模块1701,用于基于降质操作池中包括的降质操作的第一数量,确定第二数量,第二数量不大于第一数量,第二数量用于表示对第一样本图像进行降质的次数;对于任一次降质,从降质操作池中不放回抽样得到本次降质的降质操作,基于降质操作对第一样本图像进行降质;响应于完成第二数量次的降质,得到第二样本图像。
在一些实施例中,降质操作为下-上采样;降质模块1701,用于从多个插值算子中随机选取一个插值算子,得到目标插值算子;从多个缩放因子中随机选取一个缩放因子,得到目标缩放因子;基于目标插值算子与目标缩放因子,对第一样本图像进行下采样得到下采样图像;基于目标插值算子,对下采样图像进行上采样。
在一些实施例中,降质操作为各向异性高斯核模糊;降质模块1701,用于随机生成一个各向异性高斯核;基于各向异性高斯核,对第一样本图像进行卷积。
在一些实施例中,降质操作为各向同性高斯核模糊;降质模块1701,用于随机生成一个各向同性高斯核;基于各向同性高斯核,对第一样本图像进行卷积。
在一些实施例中,降质操作为像素独立的高斯噪声叠加;降质模块1701,用于对于第一样本图像中的任一像素点,基于高斯分布,为像素点随机生成一个噪声值;将像素点的像素值与噪声值相加。
在一些实施例中,降质操作为像素非独立的局部噪声叠加;降质模块1701,用于随机从第一样本图像获取多个目标像素点;对于任一目标像素点,在目标像素点的邻域内添加乘性均匀噪声。
在一些实施例中,降质操作为格式压缩;降质模块1701,用于从压缩质量分数范围内随机选取一个压缩质量分数,得到目标压缩质量分数;基于目标压缩质量分数,对第一样本图像进行压缩。
在一些实施例中,参见图18所示,装置还包括:
概率确定模块1705,用于对于任一次降质,确定本次降质的跳过概率;
跳过模块1706,用于在跳过概率不小于概率阈值的情况下,跳过本次降质。
本申请实施例提供了一种图像处理模型的训练装置,由于降质操作可以在不改变图像分辨率的情况下,降低图像的清晰度,通过对第一样本图像进行各不相同的至少一种降质操作,使得得到的第二样本图像的内容和分辨率与第一样本图像相同,但是清晰度低于第一样本图像的清晰度,然后,在第一样本图像中添加第一样本文本,在第二样本图像中添加第二样本文本,从而基于第一样本图像和第二样本图像训练图像处理模型时,能够使图像处理模型学习到清晰度不同的两个样本图像之间的差异,从而训练得到的目标图像处理模型能够提高图像的清晰度。在基于该目标图像处理模型对视频中的视频帧进行处理后,能够在不改变视频帧的分辨率的前提下,使视频帧的清晰度大幅度提高,进而得到清晰度提高的视频,使观众对象有更好的观看体验。
需要说明的是:上述实施例提供的图像处理模型的训练装置在运行应用程序时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的图像处理模型的训练装置与图像处理模型的训练方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图19是根据本申请实施例提供的一种视频处理装置的框图。参见图19,装置包括:解码模块1901、处理模块1902、编码模块1903:
解码模块1901,用于对待处理的第一视频进行解码,得到多个第一视频帧;
处理模块1902,用于基于目标图像处理模型对多个第一视频帧进行处理,得到多个第二视频帧,目标图像处理模型通过图像处理模型的训练方法训练得到,第二视频帧的清晰度高于第一视频帧的清晰度;
编码模块1903,用于对多个第二视频帧进行编码,得到第二视频。
在一些实施例中,图20是根据本申请实施例提供的另一种视频处理装置的框图。参见图20所示,所述处理模块1902,包括:
标准化单元19021,用于对于任一第一视频帧,基于目标图像处理模型中的标准化层,对第一视频帧进行标准化,得到标准化图像;
第一卷积单元19022,用于基于目标图像处理模型中的第一卷积层,对标准化图像进行卷积,得到第一特征图;
处理单元19023,用于基于目标图像处理模型中的残差层,对第一特征图进行处理,得到第二特征图;
第二卷积单元19024,用于基于目标图像处理模型中的第二卷积层,对第二特征图进行卷积,得到第三特征图;
反标准化单元19025,用于基于目标图像处理模型中的反标准化层,对第三特征图进行反标准化,得到第一视频帧对应的第二视频帧。
本申请实施例提供了一种视频处理的装置,由于降质操作可以在不改变图像分辨率的情况下,降低图像的清晰度,使得基于第一样本图像和第二样本图像训练得到的目标图像处理模型,在对第一视频中的多个第一视频帧进行处理时,能够在不改变第一视频帧的分辨率的情况下,提高第一视频帧的清晰度,得到多个提高了清晰度的第二视频帧。最后对该多个第二视频帧进行编码,即可得到提高了清晰度的第二视频。第二视频相较于第一视频,整体清晰度大幅度提高,使得观众对象有更好的观看体验。
需要说明的是:上述实施例提供的视频处理装置在运行应用程序时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的视频处理装置与视频处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
在本申请实施例中,计算机设备能够被配置为终端或者服务器,当计算机设备被配置为终端时,可以由终端作为执行主体来实施本申请实施例提供的技术方案,当计算机设备被配置为服务器时,可以由服务器作为执行主体来实施本申请实施例提供的技术方案,也可以通过终端和服务器之间的交互来实施本申请提供的技术方案,本申请实施例对此不作限定。
计算机设备被配置为终端时,图21是根据本申请实施例提供的一种终端2100的结构框图。
通常,终端2100包括有:处理器2101和存储器2102。
处理器2101可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1601可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器2101也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器2101可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器2101还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器2102可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器2102还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器2102中的非暂态的计算机可读存储介质用于存储至少一个计算机程序,该至少一个计算机程序用于被处理器2101所执行以实现本申请中方法实施例提供的图像处理模型的训练方法或视频处理方法。
在一些实施例中,终端2100还可选包括有:外围设备接口2103和至少一个外围设备。处理器2101、存储器2102和外围设备接口2103之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口2103相连。具体地,外围设备包括:射频电路2104、显示屏2105、摄像头组件2106、音频电路2107和电源2108中的至少一种。
外围设备接口2103可被用于将I/O(Input /Output,输入/输出)相关的至少一个外围设备连接到处理器2101和存储器2102。在一些实施例中,处理器2101、存储器2102和外围设备接口2103被集成在同一芯片或电路板上;在一些其他实施例中,处理器2101、存储器2102和外围设备接口2103中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路2104用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路2104通过电磁信号与通信网络以及其他通信设备进行通信。射频电路2104将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。在一些实施例中,射频电路2104包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路2104可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路2104还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏2105用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏2105是触摸显示屏时,显示屏2105还具有采集在显示屏2105的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器2101进行处理。此时,显示屏2105还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏2105可以为一个,设置在终端2100的前面板;在另一些实施例中,显示屏2105可以为至少两个,分别设置在终端2100的不同表面或呈折叠设计;在另一些实施例中,显示屏2105可以是柔性显示屏,设置在终端2100的弯曲表面上或折叠面上。甚至,显示屏2105还可以设置成非矩形的不规则图形,也即异形屏。显示屏2105可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light-EmittingDiode,有机发光二极管)等材质制备。
摄像头组件2106用于采集图像或视频。在一些实施例中,摄像头组件2106包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件2106还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路2107可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器2101进行处理,或者输入至射频电路2104以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端2100的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器2101或射频电路2104的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路2107还可以包括耳机插孔。
电源2108用于为终端2100中的各个组件进行供电。电源2108可以是交流电、直流电、一次性电池或可充电电池。当电源2108包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端2100还包括有一个或多个传感器2109。该一个或多个传感器2109包括但不限于:加速度传感器2110、陀螺仪传感器2111、压力传感器2112、光学传感器2113以及接近传感器2114。
加速度传感器2110可以检测以终端2100建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器2110可以用于检测重力加速度在三个坐标轴上的分量。处理器2101可以根据加速度传感器2110采集的重力加速度信号,控制显示屏2105以横向视图或纵向视图进行用户界面的显示。加速度传感器2110还可以用于游戏或者用户的运动数据的采集。
陀螺仪传感器2111可以检测终端2100的机体方向及转动角度,陀螺仪传感器2111可以与加速度传感器2110协同采集用户对终端2100的3D动作。处理器2101根据陀螺仪传感器2111采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
压力传感器2112可以设置在终端2100的侧边框和/或显示屏2105的下层。当压力传感器2112设置在终端2100的侧边框时,可以检测用户对终端2100的握持信号,由处理器2101根据压力传感器2112采集的握持信号进行左右手识别或快捷操作。当压力传感器2112设置在显示屏2105的下层时,由处理器2101根据用户对显示屏2105的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
光学传感器2113用于采集环境光强度。在一个实施例中,处理器2101可以根据光学传感器2113采集的环境光强度,控制显示屏2105的显示亮度。具体地,当环境光强度较高时,调高显示屏2105的显示亮度;当环境光强度较低时,调低显示屏2105的显示亮度。在另一个实施例中,处理器2101还可以根据光学传感器2114采集的环境光强度,动态调整摄像头组件2106的拍摄参数。
接近传感器2114,也称距离传感器,通常设置在终端2100的前面板。接近传感器2114用于采集用户与终端2100的正面之间的距离。在一个实施例中,当接近传感器2114检测到用户与终端2100的正面之间的距离逐渐变小时,由处理器2101控制显示屏2105从亮屏状态切换为息屏状态;当接近传感器2114检测到用户与终端2100的正面之间的距离逐渐变大时,由处理器2101控制显示屏2105从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图21中示出的结构并不构成对终端2100的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图22是根据本申请实施例提供的一种服务器的结构示意图,该服务器2200可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(CentralProcessing Units,CPU)2201和一个或一个以上的存储器2202,其中,该存储器2202中存储有至少一条计算机程序,该至少一条计算机程序由该处理器2201加载并执行以实现上述各个方法实施例提供的图像处理模型的训练方法或视频处理方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一段计算机程序,该至少一段计算机程序由计算机设备的处理器加载并执行以实现上述实施例的图像处理模型的训练方法或视频处理方法中计算机设备所执行的操作。例如,所述计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、光盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
在一些实施例中,本申请实施例所涉及的计算机程序可被部署在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。
本申请实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序代码,该计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码,处理器执行该计算机程序代码,使得该计算机设备执行上述各种可选实现方式中提供的图像处理模型的训练方法或视频处理方法。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (15)
1.一种图像处理模型的训练方法,其特征在于,所述方法包括:
对于任一第一样本图像,基于降质操作池中包括的降质操作的第一数量,确定第二数量,所述第二数量不大于所述第一数量,所述第二数量用于表示对所述第一样本图像进行降质的次数;对于任一次降质,从所述降质操作池中不放回抽样得到本次降质的降质操作,基于所述降质操作对所述第一样本图像进行降质;响应于完成所述第二数量次的降质,得到所述第一样本图像对应的第二样本图像,所述降质操作用于在不改变图像分辨率的情况下降低图像的清晰度;
在所述第一样本图像中随机添加第一样本文本,在所述第二样本图像中随机添加第二样本文本,所述第二样本文本的对比度小于所述第一样本文本的对比度;
基于图像处理模型对所述第二样本图像进行处理,得到样本结果图像,所述图像处理模型用于提高输入的图像的清晰度,所述样本结果图像的清晰度高于所述第二样本图像的清晰度;
基于所述样本结果图像与所述第一样本图像之间的差异,对所述图像处理模型进行训练,以得到目标图像处理模型。
2.根据权利要求1所述的方法,其特征在于,所述基于图像处理模型对所述第二样本图像进行处理,得到样本结果图像,包括:
基于所述图像处理模型中的标准化层,对所述第二样本图像进行标准化,得到样本标准化图像;
基于所述图像处理模型中的第一卷积层,对所述样本标准化图像进行卷积,得到第一样本特征图;
基于所述图像处理模型中的残差层,对所述第一样本特征图进行处理,得到第二样本特征图;
基于所述图像处理模型中的第二卷积层,对所述第二样本特征图进行卷积,得到第三样本特征图;
基于所述图像处理模型中的反标准化层,对所述第三样本特征图进行反标准化,得到所述样本结果图像。
3.根据权利要求1所述的方法,其特征在于,所述降质操作为下-上采样;
所述基于所述降质操作对所述第一样本图像进行降质,包括:
从多个插值算子中随机选取一个插值算子,得到目标插值算子;
从多个缩放因子中随机选取一个缩放因子,得到目标缩放因子;
基于所述目标插值算子与所述目标缩放因子,对所述第一样本图像进行下采样,得到下采样图像;
基于所述目标插值算子,对所述下采样图像进行上采样。
4.根据权利要求1所述的方法,其特征在于,所述降质操作为各向异性高斯核模糊;
所述基于所述降质操作对所述第一样本图像进行降质,包括:
随机生成一个各向异性高斯核;
基于所述各向异性高斯核,对所述第一样本图像进行卷积。
5.根据权利要求1所述的方法,其特征在于,所述降质操作为各向同性高斯核模糊;
所述基于所述降质操作对所述第一样本图像进行降质,包括:
随机生成一个各向同性高斯核;
基于所述各向同性高斯核,对所述第一样本图像进行卷积。
6.根据权利要求1所述的方法,其特征在于,所述降质操作为像素独立的高斯噪声叠加;
所述基于所述降质操作对所述第一样本图像进行降质,包括:
对于所述第一样本图像中的任一像素点,基于高斯分布,为所述像素点随机生成一个噪声值;
将所述像素点的像素值与所述噪声值相加。
7.根据权利要求1所述的方法,其特征在于,所述降质操作为像素非独立的局部噪声叠加;
所述基于所述降质操作对所述第一样本图像进行降质,包括:
随机从所述第一样本图像获取多个目标像素点;
对于任一目标像素点,在所述目标像素点的邻域内添加乘性均匀噪声。
8.根据权利要求1所述的方法,其特征在于,所述降质操作为格式压缩;
所述基于所述降质操作对所述第一样本图像进行降质,包括:
从压缩质量分数范围内随机选取一个压缩质量分数,得到目标压缩质量分数;
基于所述目标压缩质量分数,对所述第一样本图像进行压缩。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对于任一次降质,确定本次降质的跳过概率;
在所述跳过概率不小于概率阈值的情况下,跳过本次降质。
10.一种视频处理方法,其特征在于,所述方法包括:
对待处理的第一视频进行解码,得到多个第一视频帧;
基于目标图像处理模型对所述多个第一视频帧进行处理,得到多个第二视频帧,所述目标图像处理模型通过权利要求1至9任一项权利要求所述的图像处理模型的训练方法训练得到,所述第二视频帧的清晰度高于所述第一视频帧的清晰度;
对多个第二视频帧进行编码,得到第二视频。
11.根据权利要求10所述的方法,其特征在于,所述基于目标图像处理模型对所述多个第一视频帧进行处理,得到多个第二视频帧,包括:
对于任一第一视频帧,基于所述目标图像处理模型中的标准化层,对所述第一视频帧进行标准化,得到标准化图像;
基于所述目标图像处理模型中的第一卷积层,对所述标准化图像进行卷积,得到第一特征图;
基于所述目标图像处理模型中的残差层,对所述第一特征图进行处理,得到第二特征图;
基于所述目标图像处理模型中的第二卷积层,对所述第二特征图进行卷积,得到第三特征图;
基于所述目标图像处理模型中的反标准化层,对所述第三特征图进行反标准化,得到所述第一视频帧对应的第二视频帧。
12.一种图像处理模型的训练装置,其特征在于,所述装置包括:
降质模块,用于对于任一第一样本图像,基于降质操作池中包括的降质操作的第一数量,确定第二数量,所述第二数量不大于所述第一数量,所述第二数量用于表示对所述第一样本图像进行降质的次数;对于任一次降质,从所述降质操作池中不放回抽样得到本次降质的降质操作,基于所述降质操作对所述第一样本图像进行降质;响应于完成所述第二数量次的降质,得到所述第一样本图像对应的第二样本图像,所述降质操作用于在不改变图像分辨率的情况下降低图像的清晰度;
添加模块,用于在所述第一样本图像中随机添加第一样本文本,在所述第二样本图像中随机添加第二样本文本,所述第二样本文本的对比度小于所述第一样本文本的对比度;
样本处理模块,用于基于图像处理模型对所述第二样本图像进行处理,得到样本结果图像,所述图像处理模型用于提高输入的图像的清晰度,所述样本结果图像的清晰度高于所述第二样本图像的清晰度;
训练模块,用于基于所述样本结果图像与所述第一样本图像之间的差异,对所述图像处理模型进行训练,以得到目标图像处理模型。
13.一种视频处理装置,其特征在于,所述装置包括:
解码模块,用于对待处理的第一视频进行解码,得到多个第一视频帧;
处理模块,用于基于目标图像处理模型对所述多个第一视频帧进行处理,得到多个第二视频帧,所述目标图像处理模型通过权利要求1至9任一项权利要求所述的图像处理模型的训练方法训练得到,所述第二视频帧的清晰度高于所述第一视频帧的清晰度;
编码模块,用于对所述多个第二视频帧进行编码,得到第二视频。
14.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器用于存储至少一段计算机程序,所述至少一段计算机程序由所述处理器加载并执行权利要求1至9任一项权利要求所述的图像处理模型的训练方法,或者,所述至少一段计算机程序由所述处理器加载并执行权利要求10或11任一项权利要求所述的视频处理方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储至少一段计算机程序,所述至少一段计算机程序用于执行权利要求1至9任一项权利要求所述的图像处理模型的训练方法,或者,所述至少一段计算机程序用于执行权利要求10或11任一项权利要求所述的视频处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211120617.8A CN115205164B (zh) | 2022-09-15 | 2022-09-15 | 图像处理模型的训练方法、视频处理方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211120617.8A CN115205164B (zh) | 2022-09-15 | 2022-09-15 | 图像处理模型的训练方法、视频处理方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115205164A CN115205164A (zh) | 2022-10-18 |
CN115205164B true CN115205164B (zh) | 2022-12-13 |
Family
ID=83573247
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211120617.8A Active CN115205164B (zh) | 2022-09-15 | 2022-09-15 | 图像处理模型的训练方法、视频处理方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115205164B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116757965B (zh) * | 2023-08-16 | 2023-11-21 | 小米汽车科技有限公司 | 图像增强方法、装置和存储介质 |
CN118247181B (zh) * | 2024-05-28 | 2024-08-02 | 杭州海康威视数字技术股份有限公司 | 图像复原模型训练方法、电子设备和图像复原方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126404A (zh) * | 2019-12-11 | 2020-05-08 | 杭州电子科技大学 | 一种基于改进YOLO v3的古文字及字体识别方法 |
CN111914654A (zh) * | 2020-07-03 | 2020-11-10 | 苏州开心盒子软件有限公司 | 一种文本版面分析方法、装置、设备和介质 |
CN112001866A (zh) * | 2020-10-28 | 2020-11-27 | 季华实验室 | 多退化模型太赫兹图像复原方法、装置、存储介质和终端 |
CN112614072A (zh) * | 2020-12-29 | 2021-04-06 | 北京航空航天大学合肥创新研究院 | 一种图像复原方法、装置、图像复原设备及存储介质 |
CN112837240A (zh) * | 2021-02-02 | 2021-05-25 | 北京百度网讯科技有限公司 | 模型训练方法、分数提升方法、装置、设备、介质和产品 |
CN113570510A (zh) * | 2021-01-19 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及存储介质 |
CN113673675A (zh) * | 2021-08-10 | 2021-11-19 | Oppo广东移动通信有限公司 | 模型训练方法、装置、计算机设备和存储介质 |
CN114255168A (zh) * | 2021-12-10 | 2022-03-29 | 浙江大学 | 基于残差卷积神经网络的ldct图像超分辨增强方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3039239C (en) * | 2018-04-06 | 2021-02-09 | Deluxe Entertainment Services Group Inc. | Conformance of media content to original camera source using optical character recognition |
US11380033B2 (en) * | 2020-01-09 | 2022-07-05 | Adobe Inc. | Text placement within images using neural networks |
CN111291629A (zh) * | 2020-01-17 | 2020-06-16 | 平安医疗健康管理股份有限公司 | 图像中文本的识别方法、装置、计算机设备及计算机存储介质 |
CN113297986A (zh) * | 2021-05-27 | 2021-08-24 | 新东方教育科技集团有限公司 | 手写字符识别方法、装置、介质及电子设备 |
-
2022
- 2022-09-15 CN CN202211120617.8A patent/CN115205164B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126404A (zh) * | 2019-12-11 | 2020-05-08 | 杭州电子科技大学 | 一种基于改进YOLO v3的古文字及字体识别方法 |
CN111914654A (zh) * | 2020-07-03 | 2020-11-10 | 苏州开心盒子软件有限公司 | 一种文本版面分析方法、装置、设备和介质 |
CN112001866A (zh) * | 2020-10-28 | 2020-11-27 | 季华实验室 | 多退化模型太赫兹图像复原方法、装置、存储介质和终端 |
CN112614072A (zh) * | 2020-12-29 | 2021-04-06 | 北京航空航天大学合肥创新研究院 | 一种图像复原方法、装置、图像复原设备及存储介质 |
CN113570510A (zh) * | 2021-01-19 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及存储介质 |
CN112837240A (zh) * | 2021-02-02 | 2021-05-25 | 北京百度网讯科技有限公司 | 模型训练方法、分数提升方法、装置、设备、介质和产品 |
CN113673675A (zh) * | 2021-08-10 | 2021-11-19 | Oppo广东移动通信有限公司 | 模型训练方法、装置、计算机设备和存储介质 |
CN114255168A (zh) * | 2021-12-10 | 2022-03-29 | 浙江大学 | 基于残差卷积神经网络的ldct图像超分辨增强方法及装置 |
Non-Patent Citations (4)
Title |
---|
"亮度/对比度"在提高图像色泽和清晰度中的应用;胡春花等;《福建电脑》;20181231(第6期);116-117 * |
Heavy Rain Face Image Restoration: Integrating Physical Degradation;Chang-Hwan Son等;《Computer Vision and Pattern Recognition》;20220418;1-29 * |
基于色彩空间的最大稳定极值区域的自然场景文本检测;范一华等;《计算机应用》;20180110(第01期);270-275+300 * |
改进的非局部均值低剂量CT统计迭代重建算法;张文等;《计算机工程与设计》;20170716(第07期);190-196 * |
Also Published As
Publication number | Publication date |
---|---|
CN115205164A (zh) | 2022-10-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110428378B (zh) | 图像的处理方法、装置及存储介质 | |
CN108594997B (zh) | 手势骨架构建方法、装置、设备及存储介质 | |
CN115205164B (zh) | 图像处理模型的训练方法、视频处理方法、装置及设备 | |
CN112040337B (zh) | 视频的水印添加和提取方法、装置、设备及存储介质 | |
KR101755412B1 (ko) | 동영상 파일의 식별자를 처리하는 방법, 장치, 프로그램 및 기록매체 | |
CN111932463B (zh) | 图像处理方法、装置、设备及存储介质 | |
CN110933334B (zh) | 视频降噪方法、装置、终端及存储介质 | |
CN109168032B (zh) | 视频数据的处理方法、终端、服务器及存储介质 | |
CN113038165B (zh) | 确定编码参数组的方法、设备及存储介质 | |
CN110807769B (zh) | 图像显示控制方法及装置 | |
CN111586444B (zh) | 视频处理方法、装置、电子设备及存储介质 | |
CN110503159B (zh) | 文字识别方法、装置、设备及介质 | |
CN110189348B (zh) | 头像处理方法、装置、计算机设备及存储介质 | |
CN114612283A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN111107357A (zh) | 一种图像处理的方法、装置及系统 | |
CN112738606A (zh) | 音频文件的处理方法、装置、终端及存储介质 | |
CN112489006A (zh) | 图像处理方法、装置、存储介质及终端 | |
CN112235650A (zh) | 视频处理方法、装置、终端及存储介质 | |
CN113379624B (zh) | 图像生成方法、图像生成模型的训练方法、装置及设备 | |
CN115330610A (zh) | 图像处理方法、装置、电子设备以及存储介质 | |
CN114332709A (zh) | 视频处理方法、装置、存储介质以及电子设备 | |
CN113609387A (zh) | 播放内容推荐方法、装置、电子设备及存储介质 | |
CN110062226B (zh) | 一种视频编码方法、视频解码方法、装置、系统及介质 | |
CN113407774A (zh) | 封面确定方法、装置、计算机设备及存储介质 | |
CN115334353B (zh) | 信息显示的方法、装置、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40074929 Country of ref document: HK |