CN110493242A - 基于WGAN-GP和U-net改进的图像增强的方法、装置及存储介质 - Google Patents

基于WGAN-GP和U-net改进的图像增强的方法、装置及存储介质 Download PDF

Info

Publication number
CN110493242A
CN110493242A CN201910796909.5A CN201910796909A CN110493242A CN 110493242 A CN110493242 A CN 110493242A CN 201910796909 A CN201910796909 A CN 201910796909A CN 110493242 A CN110493242 A CN 110493242A
Authority
CN
China
Prior art keywords
layers
convolutional layer
normalization
layer
selu
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910796909.5A
Other languages
English (en)
Other versions
CN110493242B (zh
Inventor
王红玲
唐杰
李庆瑜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI WONDERTEK SOFTWARE CO Ltd
Original Assignee
SHANGHAI WONDERTEK SOFTWARE CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI WONDERTEK SOFTWARE CO Ltd filed Critical SHANGHAI WONDERTEK SOFTWARE CO Ltd
Priority to CN201910796909.5A priority Critical patent/CN110493242B/zh
Publication of CN110493242A publication Critical patent/CN110493242A/zh
Application granted granted Critical
Publication of CN110493242B publication Critical patent/CN110493242B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/80Responding to QoS

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了基于WGAN‑GP和U‑net改进的图像增强的方法、装置及存储介质,其方法包括如下步骤:解封装输入的视频流或文件,得到第一视频码流和第一音频码流;解码所述第一视频码流,得到第一YUV数据;构建WGAN‑GP网络;将所述第一YUV数据输入所述WGAN‑GP网络,经所述WGAN‑GP网络训练输出第二YUV数据;对所述第二YUV数据编码得到第二视频码流;将所述第二视频码流和第一音频码流封装为视频流或文件。本发明通过WGAN‑GP网络训练视频码流,可以提升视频的画质,降低重新采集视频的成本。

Description

基于WGAN-GP和U-net改进的图像增强的方法、装置及存储 介质
技术领域
本申请涉及AI在计算机视觉领域的应用,特别涉及基于WGAN-GP和U-net改进的图像增强的方法、装置及存储介质。
背景技术
伴随着超高清视频大时代的来临,视频质量的要求也越来越高,对于质量较差的老旧视频源和由于传输等因素造成的低质量视频源,重新采集视频需耗费大量的成本。
在借鉴国外相对成熟理论体系和技术应用体系的条件下,国内的增强技术和应用也有了很大的发展,但传统图像增强的方法不能对所有视频适用,需要人工调节相关参数,以达到好的视觉效果,而人工调节参数势必会增加成本。
同时,在当下人工智能的浪潮下,基于深度学习的图像增强方法不断出现,但各有优缺点。
发明内容
本方法的目的在于提高低质量视频的画质,减少重新采集视频源的成本,提高用户体验。
为了解决上述问题,本发明提供了一种基于WGAN-GP和U-net改进的图像增强的方法,包括如下步骤:第一步骤:解封装输入的视频流或文件,得到第一视频码流和第一音频码流;第二步骤:解码所述第一视频码流,得到第一YUV数据;第三步骤:构建WGAN-GP网络;第四步骤:将所述第一YUV数据输入所述WGAN-GP网络,经所述WGAN-GP网络训练输出第二YUV数据;第五步骤:对所述第二YUV数据编码得到第二视频码流;第六步骤:将所述第二视频码流和第一音频码流封装为视频流或文件。
较佳地,还可将所述第六步骤替换为如下步骤:第七步骤:对所述第一音频码流解码得到PCM数据,对所述PCM数据编码得到第二音频码流;第八步骤:将所述第二视频码流和第二音频码流封装为视频流或文件。
较佳地,所述得到第一YUV数据后,若所述第一YUV数据为小于2048×2048的像素,则进一步对所述数据值中宽和高小于2048的部分使用0填充。
较佳地,所述WGAN-GP网络包括生成器和判别器,所述生成器的损失函数为:
其中,L(G)表示所述生成器的损失函数,Pg表示生成器生成样本的数据分布,E表示符合某种分布的输入通过函数处理后得到的输出期望,D(x)表示对真实的样本进行判别;
所述判别器的损失函数为:
其中,L(D)表示所述判别器的损失函数,Pr表示真实样本的数据分布,Pg表示生成器生成样本的数据分布,E表示符合某种分布的输入通过函数处理后得到的输出期望,λ表示惩罚因子,▽xD(x)表示判别器D(x)的梯度,D(x)表示对真实的样本进行判别,为Pr与Pg之间的线性采样。
较佳地,所述公式(2)中,
其中,M为样本i的样本数量,N为样本j的样本数量,y(i,j)为实际观察值,y'(i,j)为预测估计值。
较佳地,所述生成器采用U-net网络结构。
较佳地,所述生成器的网络层结构依次为:第一3x3x16卷积层→第一SeLU激活层→第一归一化BN层→第一5x5x32卷积层→第二SeLU激活层→第二归一化BN层→第一5x5x64卷积层→第三SeLU激活层→第三归一化BN层→第一5x5x128卷积层→第四SeLU激活层→第四归一化BN层→第一5x5x256卷积层→第五SeLU激活层→第五归一化BN层→第一5x5x512卷积层→第六SeLU激活层→第六归一化BN层→第二5x5x512卷积层→第七SeLU激活层→第七归一化BN层→第三5x5x512卷积层→第八SeLU激活层→第八归一化BN层→第四5x5x512卷积层→第九SeLU激活层→第九归一化BN层→8x8x512卷积层→第十SeLU激活层→第一1x1x512卷积层→第一3x3x512卷积层→全连接层→第二1x1x512卷积层→第十一SeLU激活层→第十归一化BN层→第二3x3x512卷积层→第一图像大小调整层→第一concat维度大小调整层→第十二SeLU激活层→第十一归一化BN层→第三3x3x512卷积层→第二图像大小调整层→第二concat维度大小调整层→第十三SeLU激活层→第十二归一化BN层→3x3x256卷积层→第三图像大小调整层→第三concat维度大小调整层→第十四SeLU激活层→第十三归一化BN层→3x3x128卷积层→第四图像大小调整层→第四concat维度大小调整层→第十五SeLU激活层→第十四归一化BN层→3x3x64卷积层→第五图像大小调整层→第五concat维度大小调整层→第十六SeLU激活层→第十五归一化BN层→3x3x32卷积层→第六图像大小调整层→第六concat维度大小调整层→第十七SeLU激活层→第十六归一化BN层→第二3x3x16卷积层→第十八SeLU激活层→第十七归一化BN层→3x3x3卷积层→残差层。
较佳地,所述判别器的网络层结构依次为:第三3x3x16卷积层→第一LReLU激活层→第一归一化IN层→第二5x5x32卷积层→第二LReLU激活层→第二归一化IN层→第二5x5x64卷积层→第三LReLU激活层→第三归一化IN层→第二5x5x128卷积层→第四LReLU激活层→第四归一化IN层→第二5x5x256卷积层→第五LReLU激活层→第五归一化IN层→第五5x5x512卷积层→第二十四SeLU激活层→第六归一化IN层→第六5x5x512卷积层→第六LReLU激活层→第七归一化IN层→第七5x5x512卷积层→第七LReLU激活层→第八归一化IN层→16x16x1卷积层→reduce_mean维度大小调整层。
本发明还提供了一种基于WGAN-GP和U-net改进的图像增强的装置,包括解封装模块、封装模块、视频解码模块、音频解码模块、视频编码模块、音频编码模块和图像增强模块,其中:所述解封装模块用于解封装输入的视频流或文件,得到第一视频码流和第一音频码流;所述视频解码模块解码所述第一视频码流,得到第一YUV数据;所述图像增强模块采用WGAN-GP网络模型,用于训练输入的所述第一YUV数据,并输出第二YUV数据;所述视频编码模块对所述第二YUV数据编码得到第二视频码流;所述音频解码模块对所述第一音频码流解码得到PCM数据;所述音频编码模块对所述PCM数据编码得到第二音频码流;所述封装模块将所述第二视频码流和第二音频码流封装为视频流或文件。
本发明还提供了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述任一项所述方法的步骤。
与现有技术相比,本发明存在以下技术效果:
1、本发明实施例基于WGAN-GP网络对低质量视频图像进行增强改进,提高低质量视频的画质,减少重新采集视频源的成本,提高用户体验。
2、由于WGAN-GP网络的训练具有不稳定性,通过对WGAN-GP网络做了改进,加快模型的训练收敛性,降低模型训练的时间。
3、通过扩展U-net网络结构,加入了全连接层,使WGAN-GP网络模型支持输入像素小于2048x2048(对于宽和高小于2048的部分使用0填充)的任意分辨率,输入像素大小更加灵活,可更大程度的保留视频中的信息,保持输入输出的像素大小一致以及支持更多类型的输入分辨率。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍,显而易见,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。附图中:
图1为本发明实施例基于WGAN-GP和U-net改进的图像增强的方法流程图;
图2为本发明实施例基于WGAN-GP和U-net改进的图像增强的装置结构示意图;
图3为生成器结构示意图;
图4为判别器结构示意图。
具体实施方式
以下将结合附图对本发明提供的基于WGAN-GP和U-net改进的图像增强的方法、装置及存储介质进行详细的描述,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例,本领域技术人员在不改变本发明精神和内容的范围内,能够对其进行修改和润色。
实施例1
请参考图1,一种基于WGAN-GP和U-net改进的图像增强的方法,包括如下步骤:
第一步骤S1:解封装输入的视频流或文件,得到第一视频码流和第一音频码流;
第二步骤S2:解码所述第一视频码流,得到第一YUV数据,若所述第一YUV数据为小于2048×2048的像素,则进一步对所述数据值中宽和高小于2048的部分使用0填充;
第三步骤S3:构建WGAN-GP网络;
作为一种可行实施例,WGAN-GP网络包括生成器和判别器,所述生成器采用U-net网络结构,其损失函数为:
其中,L(G)表示所述生成器的损失函数,Pg表示生成器生成样本的数据分布,E表示符合某种分布的输入通过函数处理后得到的输出期望,D(x)表示对真实的样本进行判别;
所述判别器的损失函数为:
其中,L(D)表示所述判别器的损失函数,Pr表示真实样本的数据分布,Pg表示生成器生成样本的数据分布,E表示符合某种分布的输入通过函数处理后得到的输出期望,λ表示惩罚因子,▽xD(x)表示判别器D(x)的梯度,D(x)表示对真实的样本进行判别,为Pr与Pg之间的线性采样。
具体地,所述公式(2)中,
其中,M为样本i的样本数量,N为样本j的样本数量,y(i,j)为实际观察值,y'(i,j)为预测估计值。
这里,由于WGAN-GP中的惩罚因子λ的值固定不变,从而会带来梯度消失的问题,因此,通过动态调整λ,使λ随着分布之间的距离拉近而减小,即λ随着生成图像与原始图像的RMSE(均方根误差)的增大而减小,使其训练收敛速度更快、更好,且对参数不敏感。
作为一种可行实施例,请参考图3,所述生成器的网络层结构依次为:第一3x3x16卷积层→第一SeLU激活层→第一归一化BN层→第一5x5x32卷积层→第二SeLU激活层→第二归一化BN层→第一5x5x64卷积层→第三SeLU激活层→第三归一化BN层→第一5x5x128卷积层→第四SeLU激活层→第四归一化BN层→第一5x5x256卷积层→第五SeLU激活层→第五归一化BN层→第一5x5x512卷积层→第六SeLU激活层→第六归一化BN层→第二5x5x512卷积层→第七SeLU激活层→第七归一化BN层→第三5x5x512卷积层→第八SeLU激活层→第八归一化BN层→第四5x5x512卷积层→第九SeLU激活层→第九归一化BN层→8x8x512卷积层→第十SeLU激活层→第一1x1x512卷积层→第一3x3x512卷积层→全连接层→第二1x1x512卷积层→第十一SeLU激活层→第十归一化BN层→第二3x3x512卷积层→第一图像大小调整层→第一concat维度大小调整层→第十二SeLU激活层→第十一归一化BN层→第三3x3x512卷积层→第二图像大小调整层→第二concat维度大小调整层→第十三SeLU激活层→第十二归一化BN层→3x3x256卷积层→第三图像大小调整层→第三concat维度大小调整层→第十四SeLU激活层→第十三归一化BN层→3x3x128卷积层→第四图像大小调整层→第四concat维度大小调整层→第十五SeLU激活层→第十四归一化BN层→3x3x64卷积层→第五图像大小调整层→第五concat维度大小调整层→第十六SeLU激活层→第十五归一化BN层→3x3x32卷积层→第六图像大小调整层→第六concat维度大小调整层→第十七SeLU激活层→第十六归一化BN层→第二3x3x16卷积层→第十八SeLU激活层→第十七归一化BN层→3x3x3卷积层→残差层;
为了更好的还原图像细节信息和图像精度,生成器使用的是包含下采样和上采样的U-net网络结构,设置输入像素大小2048x2048是为了支持更多的分辨率,保持输入输出分辨率一致,对于输入像素为2048x2048,调整生成器上采样和下采样的网络结构以更多的保留源视频的信息。
作为一种可行实施例,请参考图4,所述判别器的网络层结构依次为:第三3x3x16卷积层→第一LReLU激活层→第一归一化IN层→第二5x5x32卷积层→第二LReLU激活层→第二归一化IN层→第二5x5x64卷积层→第三LReLU激活层→第三归一化IN层→第二5x5x128卷积层→第四LReLU激活层→第四归一化IN层→第二5x5x256卷积层→第五LReLU激活层→第五归一化IN层→第五5x5x512卷积层→第二十四SeLU激活层→第六归一化IN层→第六5x5x512卷积层→第六LReLU激活层→第七归一化IN层→第七5x5x512卷积层→第七LReLU激活层→第八归一化IN层→16x16x1卷积层→reduce_mean维度大小调整层。
第四步骤S4:将所述第一YUV数据输入所述WGAN-GP网络,经所述WGAN-GP网络训练输出第二YUV数据;
请继续参考图3和图4,生成器包括70个网络层,工作时,第一YUV数据经处理为2048x2048像素的图像后,输入生成器,并依次经过第一3x3x16卷积层、第一SeLU激活层、第一归一化BN层处理后得到2048x2048x16的输出,经第一5x5x32卷积层、第二SeLU激活层、第二归一化BN层处理后得到1024x1024x32的输出,经过第一5x5x64卷积层、第三SeLU激活层、第三归一化BN层处理后得到512x512x64的输出,经过第一5x5x128卷积层、第四SeLU激活层、第四归一化BN层处理后得到256x256x128的输出,经第一5x5x256卷积层、第五SeLU激活层、第五归一化BN层处理后得到128x128x256的输出,经第一5x5x512卷积层、第六SeLU激活层、第六归一化BN层处理后得到64x64x512的输出,经第二5x5x512卷积层、第七SeLU激活层、第七归一化BN层处理后得到32x32x512的输出,经第三5x5x512卷积层、第八SeLU激活层、第八归一化BN层处理后得到16x16x512的输出,经第四5x5x512卷积层、第九SeLU激活层、第九归一化BN层处理后得到8x8x512的输出,经8x8x512卷积层、第十SeLU激活层、第一1x1x512卷积层到1x1x512的输出,经第一3x3x512卷积层、全连接层将1x1x512乘以32x32和之前的32x32x512串联在一起处理后得到32x32x1024的输出,经第二1x1x512卷积层、第十一SeLU激活层、第十归一化BN层处理后得到32x32x512的输出,经第二3x3x512卷积层、第一图像大小调整层、第一concat维度大小调整层、第十二SeLU激活层、第十一归一化BN层处理后得到64x64x1024的输出,经第三3x3x512卷积层、第二图像大小调整层、第二concat维度大小调整层、第十三SeLU激活层、第十二归一化BN层处理后得到128x128x768的输出,经3x3x256卷积层、第三图像大小调整层、第三concat维度大小调整层、第十四SeLU激活层、第十三归一化BN层处理后得到256x256x384的输出,经3x3x128卷积层、第四图像大小调整层、第四concat维度大小调整层、第十五SeLU激活层、第十四归一化BN层处理后得到512x512x192的输出,经3x3x64卷积层、第五图像大小调整层、第五concat维度大小调整层、第十六SeLU激活层、第十五归一化BN层处理后得到1024x1024x96的输出,经3x3x32卷积层、第六图像大小调整层、第六concat维度大小调整层、第十七SeLU激活层、第十六归一化BN层处理后得到2048x2048x48的输出,经过第二3x3x16卷积层、第十八SeLU激活层、第十七归一化BN层、3x3x3卷积层、残差层处理后得到2048*2048*3的输出;
判别器包括26个网络层,生成器生成的2048x2048的图像继续输入判别器,经第三3x3x16卷积层、第一LReLU激活层、第一归一化IN层处理后得到2048x2048x16的输出,经第二5x5x32卷积层、第二LReLU激活层、第二归一化IN层处理后得到1024x1024x32的输出,经第二5x5x64卷积层、第三LReLU激活层、第三归一化IN层处理后得到512x512x64的输出,经第二5x5x128卷积层、第四LReLU激活层、第四归一化IN层处理后得到256x256x128的输出,经第二5x5x256卷积层、第五LReLU激活层、第五归一化IN层处理后得到128x128x256的输出,经第五5x5x512卷积层、第二十四SeLU激活层、第六归一化IN层处理后得到64x64x512的输出,经第六5x5x512卷积层、第六LReLU激活层、第七归一化IN层处理后得到32x32x512的输出,经第七5x5x512卷积层、第七LReLU激活层、第八归一化IN层处理后得到16x16x512的输出,经16x16x1卷积层、reduce_mean维度大小调整层处理后得到Discriminant result判别结果,即输入的图像是生成的图像还是真实的图像;
得到判别结果之后,判别器将判别结果反馈给生成器,生成器根据判别结果动态调整惩罚因子λ,二者博弈,如此反复,直至得到一个较好的生成器模型,最终训练输出第二YUV数据。
第五步骤S5:对所述第二YUV数据编码处理后得到第二视频码流;
第六步骤S6:将所述第二视频码流和第一音频码流封装为视频流或文件。
作为一种可行实施例,还可将上述第六步骤S6替换为如下步骤,以在图像增强的同时对音频也重新进行编解码:
第七步骤S7:对所述第一音频码流解码处理后得到PCM数据,对所述PCM数据编码处理后得到第二音频码流;
第八步骤S8:将所述第二视频流和第二音频流封装为视频流或文件。
以上步骤顺序仅作为一个参考,实际应用过程中,在不影响最终输出结果的前提下,第七步骤S7可以在第一步骤S1之后和第八步骤S8之前的任意位置。
本实施例还公开了一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述步骤。
实施例2
基于实施例1的方法,本实施例公开一种基于WGAN-GP和U-net改进的图像增强的装置,请参考图2,包括解封装模块1、封装模块5、视频解码模块2、音频解码模块6、视频编码模块4、音频编码模块7和图像增强模块3,其中:
所述解封装模块1用于解封装输入的视频流或文件,得到第一视频码流和第一音频码流;
所述视频解码模块2解码所述第一视频码流,得到第一YUV数据;
所述图像增强模块3采用WGAN-GP网络模型,用于训练输入的所述第一YUV数据,并输出第二YUV数据;
所述视频编码模块4对所述第二YUV数据编码得到第二视频码流;
所述音频解码模块6对所述第一音频码流解码得到PCM数据;
所述音频编码模块7对所述PCM数据编码得到第二音频码流;
所述封装模块5将所述第二视频码流和第二音频码流封装为视频流或文件。
以上公开的仅为本申请的一个具体实施例,但本申请并非局限于此,任何本领域的技术人员能思之的变化,都应落在本申请的保护范围内。

Claims (10)

1.一种基于WGAN-GP和U-net改进的图像增强的方法,其特征在于,包括如下步骤:
第一步骤:解封装输入的视频流或文件,得到第一视频码流和第一音频码流;
第二步骤:解码所述第一视频码流,得到第一YUV数据;
第三步骤:构建WGAN-GP网络;
第四步骤:将所述第一YUV数据输入所述WGAN-GP网络,经所述WGAN-GP网络训练输出第二YUV数据;
第五步骤:对所述第二YUV数据编码得到第二视频码流;
第六步骤:将所述第二视频码流和第一音频码流封装为视频流或文件。
2.根据权利要求1所述的方法,其特征在于,还可将所述第六步骤替换为如下步骤:
第七步骤:对所述第一音频码流解码得到PCM数据,对所述PCM数据编码得到第二音频码流;
第八步骤:将所述第二视频码流和第二音频码流封装为视频流或文件。
3.根据权利要求1所述的方法,其特征在于,所述得到第一YUV数据后,若所述第一YUV数据为小于2048×2048的像素,则进一步对所述数据值中宽和高小于2048的部分使用0填充。
4.根据权利要求1-3任一所述的方法,其特征在于,所述WGAN-GP网络包括生成器和判别器,所述生成器的损失函数为:
其中,L(G)表示所述生成器的损失函数,Pg表示生成器生成样本的数据分布,E表示符合某种分布的输入通过函数处理后得到的输出期望,D(x)表示对真实的样本进行判别;
所述判别器的损失函数为:
其中,L(D)表示所述判别器的损失函数,Pr表示真实样本的数据分布,Pg表示生成器生成样本的数据分布,E表示符合某种分布的输入通过函数处理后得到的输出期望,λ表示惩罚因子,▽xD(x)表示判别器D(x)的梯度,D(x)表示对真实的样本进行判别,为Pr与Pg之间的线性采样。
5.根据权利要求4所述的方法,其特征在于,所述公式(2)中,
其中,M为样本i的样本数量,N为样本j的样本数量,y(i,j)为实际观察值,y'(i,j)为预测估计值。
6.根据权利要求4所述的方法,其特征在于,所述生成器采用U-net网络结构。
7.根据权利要求6所述的方法,其特征在于,所述生成器的网络层结构依次为:第一3x3x16卷积层→第一SeLU激活层→第一归一化BN层→第一5x5x32卷积层→第二SeLU激活层→第二归一化BN层→第一5x5x64卷积层→第三SeLU激活层→第三归一化BN层→第一5x5x128卷积层→第四SeLU激活层→第四归一化BN层→第一5x5x256卷积层→第五SeLU激活层→第五归一化BN层→第一5x5x512卷积层→第六SeLU激活层→第六归一化BN层→第二5x5x512卷积层→第七SeLU激活层→第七归一化BN层→第三5x5x512卷积层→第八SeLU激活层→第八归一化BN层→第四5x5x512卷积层→第九SeLU激活层→第九归一化BN层→8x8x512卷积层→第十SeLU激活层→第一1x1x512卷积层→第一3x3x512卷积层→全连接层→第二1x1x512卷积层→第十一SeLU激活层→第十归一化BN层→第二3x3x512卷积层→第一图像大小调整层→第一concat维度大小调整层→第十二SeLU激活层→第十一归一化BN层→第三3x3x512卷积层→第二图像大小调整层→第二concat维度大小调整层→第十三SeLU激活层→第十二归一化BN层→3x3x256卷积层→第三图像大小调整层→第三concat维度大小调整层→第十四SeLU激活层→第十三归一化BN层→3x3x128卷积层→第四图像大小调整层→第四concat维度大小调整层→第十五SeLU激活层→第十四归一化BN层→3x3x64卷积层→第五图像大小调整层→第五concat维度大小调整层→第十六SeLU激活层→第十五归一化BN层→3x3x32卷积层→第六图像大小调整层→第六concat维度大小调整层→第十七SeLU激活层→第十六归一化BN层→第二3x3x16卷积层→第十八SeLU激活层→第十七归一化BN层→3x3x3卷积层→残差层。
8.根据权利要求4所述的方法,其特征在于,所述判别器的网络层结构依次为:第三3x3x16卷积层→第一LReLU激活层→第一归一化IN层→第二5x5x32卷积层→第二LReLU激活层→第二归一化IN层→第二5x5x64卷积层→第三LReLU激活层→第三归一化IN层→第二5x5x128卷积层→第四LReLU激活层→第四归一化IN层→第二5x5x256卷积层→第五LReLU激活层→第五归一化IN层→第五5x5x512卷积层→第二十四SeLU激活层→第六归一化IN层→第六5x5x512卷积层→第六LReLU激活层→第七归一化IN层→第七5x5x512卷积层→第七LReLU激活层→第八归一化IN层→16x16x1卷积层→reduce_mean维度大小调整层。
9.一种基于WGAN-GP和U-net改进的图像增强的装置,其特征在于,包括解封装模块、封装模块、视频解码模块、音频解码模块、视频编码模块、音频编码模块和图像增强模块,其中:
所述解封装模块用于解封装输入的视频流或文件,得到第一视频码流和第一音频码流;
所述视频解码模块解码所述第一视频码流,得到第一YUV数据;
所述图像增强模块采用WGAN-GP网络模型,用于训练输入的所述第一YUV数据,并输出第二YUV数据;
所述视频编码模块对所述第二YUV数据编码得到第二视频码流;
所述音频解码模块对所述第一音频码流解码得到PCM数据;
所述音频编码模块对所述PCM数据编码得到第二音频码流;
所述封装模块将所述第二视频码流和第二音频码流封装为视频流或文件。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1至8中任一项所述方法的步骤。
CN201910796909.5A 2019-08-27 2019-08-27 基于WGAN-GP和U-net改进的图像增强的方法、装置及存储介质 Active CN110493242B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910796909.5A CN110493242B (zh) 2019-08-27 2019-08-27 基于WGAN-GP和U-net改进的图像增强的方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910796909.5A CN110493242B (zh) 2019-08-27 2019-08-27 基于WGAN-GP和U-net改进的图像增强的方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN110493242A true CN110493242A (zh) 2019-11-22
CN110493242B CN110493242B (zh) 2022-02-11

Family

ID=68554460

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910796909.5A Active CN110493242B (zh) 2019-08-27 2019-08-27 基于WGAN-GP和U-net改进的图像增强的方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN110493242B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112116601A (zh) * 2020-08-18 2020-12-22 河南大学 一种基于线性采样网络及生成对抗残差网络的压缩感知采样重建方法及系统
CN112836701A (zh) * 2019-11-25 2021-05-25 中国移动通信集团浙江有限公司 人脸识别方法、装置及计算设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102695062A (zh) * 2012-05-15 2012-09-26 Tcl集团股份有限公司 视频自适应优化的方法及装置
CN102821323A (zh) * 2012-08-01 2012-12-12 成都理想境界科技有限公司 基于增强现实技术的视频播放方法、系统及移动终端
CN103237258A (zh) * 2013-03-29 2013-08-07 天脉聚源(北京)传媒科技有限公司 一种视频音量自动调节的系统及方法
CN108681991A (zh) * 2018-04-04 2018-10-19 上海交通大学 基于生成对抗网络的高动态范围反色调映射方法及系统
CN110648376A (zh) * 2019-08-20 2020-01-03 南京邮电大学 一种基于生成对抗网络的有限角ct重建去伪影的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102695062A (zh) * 2012-05-15 2012-09-26 Tcl集团股份有限公司 视频自适应优化的方法及装置
CN102821323A (zh) * 2012-08-01 2012-12-12 成都理想境界科技有限公司 基于增强现实技术的视频播放方法、系统及移动终端
CN103237258A (zh) * 2013-03-29 2013-08-07 天脉聚源(北京)传媒科技有限公司 一种视频音量自动调节的系统及方法
CN108681991A (zh) * 2018-04-04 2018-10-19 上海交通大学 基于生成对抗网络的高动态范围反色调映射方法及系统
CN110648376A (zh) * 2019-08-20 2020-01-03 南京邮电大学 一种基于生成对抗网络的有限角ct重建去伪影的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ISHAAN GULRAJANI 等: "Improved Training of Wasserstein GANs", 《NIPS"17: PROCEEDINGS OF THE 31ST INTERNATIONAL CONFERENCE ON NEURAL INFORMATION PROCESSING SYSTEMS》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836701A (zh) * 2019-11-25 2021-05-25 中国移动通信集团浙江有限公司 人脸识别方法、装置及计算设备
CN112116601A (zh) * 2020-08-18 2020-12-22 河南大学 一种基于线性采样网络及生成对抗残差网络的压缩感知采样重建方法及系统

Also Published As

Publication number Publication date
CN110493242B (zh) 2022-02-11

Similar Documents

Publication Publication Date Title
WO2022267641A1 (zh) 一种基于循环生成对抗网络的图像去雾方法及系统
WO2023231329A1 (zh) 一种医学图像的语义分割方法及装置
WO2022135013A1 (zh) 一种人脸属性编辑方法、系统、电子设备及存储介质
CN110007347A (zh) 一种深度学习地震资料去噪方法
CN112233012B (zh) 一种人脸生成系统及方法
CN104064193B (zh) 一种线性预测语音编码的信息隐藏方法与提取方法
CN110493242A (zh) 基于WGAN-GP和U-net改进的图像增强的方法、装置及存储介质
CN110909744B (zh) 结合语义分割的多描述编码方法及系统
CN110751649A (zh) 视频质量评估方法、装置、电子设备及存储介质
CN110263865A (zh) 一种半监督多模态多类别的图像翻译方法
CN110349087A (zh) 基于适应性卷积的rgb-d图像高质量网格生成方法
CN111127331A (zh) 基于像素级全局噪声估计编解码网络的图像去噪方法
CN116433914A (zh) 一种二维医学图像分割方法及系统
CN109191392A (zh) 一种语义分割驱动的图像超分辨率重构方法
CN108550173A (zh) 基于语音生成口型视频的方法
CN112232485A (zh) 漫画风格图像转换模型的训练方法、图像生成方法及装置
CN114511475B (zh) 一种基于改进Cycle GAN的图像生成方法
CN115331073A (zh) 一种基于TransUnet架构的影像自监督学习方法
CN110047038B (zh) 一种基于层级递进网络的单图像超分辨重建方法
CN109993701A (zh) 一种基于金字塔结构的深度图超分辨率重建的方法
CN117911588A (zh) 虚拟对象脸部驱动及模型训练方法、装置、设备和介质
CN108182712A (zh) 图像处理方法、装置及系统
CN117671764A (zh) 基于Transformer的动态说话人脸图像生成系统及方法
CN113781376B (zh) 一种基于分治融合的高清人脸属性编辑方法
CN115690238A (zh) 图像生成及模型训练方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant