CN114445510A - 一种图像优化方法、装置、电子设备和存储介质 - Google Patents
一种图像优化方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN114445510A CN114445510A CN202011191533.4A CN202011191533A CN114445510A CN 114445510 A CN114445510 A CN 114445510A CN 202011191533 A CN202011191533 A CN 202011191533A CN 114445510 A CN114445510 A CN 114445510A
- Authority
- CN
- China
- Prior art keywords
- discriminator
- encoder
- picture
- vector
- normal distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
本申请公开了一种图像优化方法、装置、电子设备和存储介质,具体包括:构建VAE‑GAN模型,包括编码器、解码生成器和判别器;将原始图片输入编码器,输出标准正态分布的随机编码隐向量;生成给所述解码器提供标准正态分布的隐向量生成图片;将所述原始图片和所述生成图片输入到所述判别器,所述编码器、所述解码生成器和所述判别器的生成三个loss值;根据三个loss值,调整各模块的规则,迭代优化,生成的模型能够更为准确地生成具有与原始图片相似特征的人物头像,并且在整体的构图上更加合理与清晰。
Description
技术领域
本申请涉及图像优化领域,尤其涉及一种图像优化方法、装置、电子设备和存储介质。
背景技术
为了得到表现更好的模型,大多研究思路是构建非常复杂的模型,投入大量计算资源与时间,试图得到表现优异的、不可解释的模型。通过将模型算法拆分重组,尝试优化生成模型架构,提出的VAE-GAN架构组合优化可以避免陷入增加网络深度与堆砌计算资源的消耗之中,利用有限的计算资源提供新的生成模型思路。
GAN的提出是为了通过生成模型和判别模型对抗来达到对生成图片最大相似度的伪装,比起VAE生成的图片会比较清晰。但是原始GAN模型本身也存在一些问题,主要的问题有两个:1)判别器越好,生成器的梯度消失越严重,这样会导致在网络训练上很多时候生成器的参数基本上不会发生改变;2)由于网络是对抗式的,常常会造成训练时模型的崩溃,在训练时往往需要权衡训练的生成器与鉴别器的参数来防止崩溃的发生。这样在实际的应用上也带了很多不便。
发明内容
有鉴于此,本申请实施例提供一种图像优化方法。
第一方面,本申请实施例提供了一种图像优化方法,所述方法包括:
构建VAE-GAN模型,包括编码器、解码生成器和判别器;
将原始图片输入编码器,输出标准正态分布的随机编码/隐向量;
生成给所述解码器提供标准正态分布的隐向量生成图片;
将所述原始图片和所述生成图片输入到所述判别器,所述编码器、所述解码生成器和所述判别器的生成三个loss值;
根据三个loss值,调整各模块的规则,迭代优化。
第二方面,本申请实施例提供了一种图像优化装置,所述装置包括下列模块:
构建模块,构建VAE-GAN模型,包括编码器、解码生成器和判别器;
输出模块,将原始图片输入编码器,输出标准正态分布的随机编码/隐向量;
生成模块生成给所述解码器提供标准正态分布的隐向量生成图片;
计算模块,将所述原始图片和所述生成图片输入到所述判别器,所述编码器、所述解码生成器和所述判别器的生成三个loss值;
迭代模块,根据三个loss值,调整各模块的规则,迭代优化。
第三方面,本发明实施例还提供了一种电子设备,所述电子设备包括有存储器,处理器以及一个或者一个以上的程序,其中所述一个或者一个以上程序存储于所述存储器中,且经配置以由所述处理器执行上述第一方面所述的方法的步骤。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面所述的方法的步骤。
本发明实施例上述第一方面至第四方面提供的方案中,VAE-GAN模型的主体包含三个部分,编码器encoder,解码生成decoder/generator,和判别器discriminator。其中,编码器由四层卷积层和一层全连接层组成。解码生成部分虽然是新出现的结构但本质没有太大的变化,经过一层全连接扩充隐向量之后,再由五层反卷积层来生成图片。最后判别器由四层卷积层和一层全连接层组成。与之前不同的是,VAE或者DCGAN训练时是各自的两个模块在训练中计算各自的损失函数,而VAE-GAN有三个模块,因此训练时需要三个模块各自训练自己的损失函数,这样也有助于在训练出现问题后查找是哪个模块不符合预期,从而便于调整参数,可以发现新的模型能够更为准确地生成具有与原始图片相似特征的人物头像,并且在整体的构图上更加合理与清晰。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例1提供的一种图像优化方法的流程示意图;
图2示出了本发明实施例2所提供的一种图像优化装置的结构示意图;
图3示出了本发明实施例3所提供的一种电子设备的结构示意图;
图4示出了VAE模型架构图。
具体实施方式
在本发明实施例的描述中,所属技术领域的技术人员应当知道,本发明实施例可以实现为方法、装置、电子设备及计算机可读存储介质。因此,本发明实施例可以具体实现为以下形式:完全的硬件、完全的软件(包括固件、驻留软件、微代码等)、硬件和软件结合的形式。此外,在一些实施例中,本发明实施例还可以实现为在一个或多个计算机可读存储介质中的计算机程序产品的形式,该计算机可读存储介质中包含计算机程序代码。
上述计算机可读存储介质可以采用一个或多个计算机可读存储介质的任意组合。计算机可读存储介质包括:电、磁、光、电磁、红外或半导体的系统、装置或器件,或者以上任意的组合。计算机可读存储介质更具体的例子包括:便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、闪存(Flash Memory)、光纤、光盘只读存储器(CD-ROM)、光存储器件、磁存储器件或以上任意组合。在本发明实施例中,计算机可读存储介质可以是任意包含或存储程序的有形介质,该程序可以被指令执行系统、装置、器件使用或与其结合使用。
上述计算机可读存储介质包含的计算机程序代码可以用任意适当的介质传输,包括:无线、电线、光缆、射频(Radio Frequency,RF)或者以上任意合适的组合。
可以以汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言,例如:Java、Smalltalk、C++,还包括常规的过程式程序设计语言,例如:C语言或类似的程序设计语言。计算机程序代码可以完全的在用户计算机上执行、部分的在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行以及完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括:局域网(LAN)或广域网(WAN),可以连接到用户计算机,也可以连接到外部计算机。
本发明实施例通过流程图和/或方框图描述所提供的方法、装置、电子设备。
应当理解,流程图和/或方框图的每个方框以及流程图和/或方框图中各方框的组合,都可以由计算机可读程序指令实现。这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而生产出一种机器,这些计算机可读程序指令通过计算机或其他可编程数据处理装置执行,产生了实现流程图和/或方框图中的方框规定的功能/操作的装置。
也可以将这些计算机可读程序指令存储在能使得计算机或其他可编程数据处理装置以特定方式工作的计算机可读存储介质中。这样,存储在计算机可读存储介质中的指令就产生出一个包括实现流程图和/或方框图中的方框规定的功能/操作的指令装置产品。
也可以将计算机可读程序指令加载到计算机、其他可编程数据处理装置或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其他可编程数据处理装置上执行的指令能够提供实现流程图和/或方框图中的方框规定的功能/操作的过程。
下面结合本发明实施例中的附图对本发明实施例进行描述。
概率生成模型,简称为生成模型(Generative Model)是一类统计学与机器学习中的重要模型。生成模型可以生成可观测数据,因而应用非常广泛,可以对不同的数据进行建模,包括文本、图像、声音等等。从本质上来看,生成模型也可以认为是从一个已知的概率模型来拟合提供的样本数据,然而神经网络可以拟合各种函数,却不能拟合概率分布,由于概率分布具有非负和归一化的要求,神经网络能够直接得到的分布只有离散型分布或者连续分布中的高斯分布。
图像生成是机器学习中非常热门的研究方向,图像本质上是由有限个像素组成,各个像素的取值也是离散的。一般可以通过离散分布来描述图像,例如自回归流等模型,这类模型无法并行处理,计算量较大。目前主流的生成模型有变分自动编码VAE,生成对抗网络GAN,以及流模型Flow。
比较这三种模型的特点,从不同的角度尝试生成更高质量的图片并且具有不同的优缺点:VAE模型可以通过编解码的步骤直接比较生成图片与原始图片的差异,但是缺乏精确性,更容易产生较模糊的图片;GAN的精确性更优,但是训练过程太过自由,并且GAN中没有编码器来推理潜在变量,无法表征完整的数据分布;流模型Flow可以准确推理潜在变量,精确生成模型,但目前该算法所需的训练时间与训练资源开销过大。
在图像生成领域,为了得到表现更好的模型,大多研究思路是构建非常复杂的模型,投入大量计算资源与时间,试图得到表现优异的、不可解释的模型。通过将模型算法拆分重组,尝试优化生成模型架构,提出的VAE-GAN架构组合优化可以避免陷入增加网络深度与堆砌计算资源的消耗之中,利用有限的计算资源提供新的生成模型思路。
VAE-GAN模型是一种典型的模型组合优化,将VAE模型和GAN模型组合了起来,简单来说,VAE-GAN模型把传统GAN模型中生成器的部分换成了VAE模型,架构如图4所示。
VAE-GAN模型的主体包含三个部分,编码器encoder,解码生成decoder/generator,和判别器discriminator。其中,编码器由四层卷积层和一层全连接层组成。解码生成部分虽然是新出现的结构但本质没有太大的变化,经过一层全连接扩充隐向量之后,再由五层反卷积层来生成图片。最后判别器由四层卷积层和一层全连接层组成。与之前不同的是,VAE或者DCGAN训练时是各自的两个模块在训练中计算各自的损失函数,而VAE-GAN有三个模块,因此训练时需要三个模块各自训练自己的损失函数,这样也有助于在训练出现问题后查找是哪个模块不符合预期,从而便于调整参数。
实施例1
基于此,提供了一种图像优化方法,所述方法包括:
构建VAE-GAN模型,包括编码器、解码生成器和判别器;
将原始图片输入编码器,输出标准正态分布的随机编码/隐向量;
生成给所述解码器提供标准正态分布的隐向量生成图片;
将所述原始图片和所述生成图片输入到所述判别器,所述编码器、所述解码生成器和所述判别器的生成三个loss值;
根据三个loss值,调整各模块的规则,迭代优化。
具体地,步骤S1,构建VAE-GAN模型,包括编码器S11、解码生成器S12和判别器S13。
编码器由四层卷积层和一层全连接层组成。通过在编码过程中增加限制,让编码器生成的编码符合标准正态分布,在训练完之后给解码器输入一个标准正态分布的随机编码就能够得到想要生成的图片类型。VAE通过编码器生成的编码称为隐向量,它由均值向量和标准差向量两部分组成。
解码生成器,经过一层全连接扩充隐向量之后,再由五层反卷积层来生成图片。给解码器提供标准正态分布的隐向量,解码器就可以生成图片,实际操作时,还需要平衡图片重构的精确度和隐向量对标准正态分布的符合度。一般来说,通过平均平方误差来度量图片的相似程度,通过KL散度来评估隐向量与标准正态分布的差异。使用一个参数重构技巧,即不直接生成实数向量,而是通过一个均值向量和一个标准差向量相加来得到隐向量。这样在计算解码器loss时,就可以从标准差向量中采样,再加上均值向量来得到隐向量。既保证解码器生成的图片与原始图片的相似程度,也要让生成的隐向量符合标准正态分布。
判别器。由四层卷积层和一层全连接层组成,训练时需要三个模块各自训练自己的损失函数。标准的GAN使用多层感知机作为网络结构,但是考虑到卷积神经网络在获取图像特征方面的效果,使用了转置卷积操作(transposed convolution operation),它的另一个名字是Deconvolution。转置卷积帮助图像从低清晰度向高清晰度转换,同样的,采用多层转置卷积可以使图像变得生动多彩。
步骤S2,训练并优化模型。
步骤S21,将原始图片输入编码器,输出一个标准正态分布的随机编码/隐向量。
步骤S22,通过S21生成的给解码器提供标准正态分布的隐向量,解码器就可以生成图片,实际操作时需要平衡图片重构的精确度和隐向量对标准正态分布的符合度。
步骤S23,将原始图片和S22生成的图片输入到判别器,计算编码器、解码生成器和判别器的三个loss值。
步骤S24,根据三个loss值,调整各模块的规则,迭代优化。
在图像生成领域,为了得到表现更好的模型,大多研究思路是构建非常复杂的模型,投入大量计算资源与时间,试图得到表现优异的、不可解释的模型。通过将模型算法拆分重组,尝试优化生成模型架构,提出的VAE-GAN架构组合优化可以避免陷入增加网络深度与堆砌计算资源的消耗之中,利用有限的计算资源提供新的生成模型思路。
实施例2
本实施例提出了一种图像优化装置,所述装置包括下列模块:
构建模块,构建VAE-GAN模型,包括编码器、解码生成器和判别器;
输出模块,将原始图片输入编码器,输出标准正态分布的随机编码/隐向量;
生成模块生成给所述解码器提供标准正态分布的隐向量生成图片;
输入模块,将所述原始图片和所述生成图片输入到所述判别器,所述编码器、所述解码生成器和所述判别器的生成三个loss值;
计算模块,根据三个loss值,调整各模块的规则,迭代优化。
步骤S1,构建VAE-GAN模型,包括编码器S11、解码生成器S12和判别器S13。
构建模块,编码器由四层卷积层和一层全连接层组成。通过在编码过程中增加限制,让编码器生成的编码符合标准正态分布,在训练完之后给解码器输入一个标准正态分布的随机编码就能够得到想要生成的图片类型。VAE通过编码器生成的编码称为隐向量,它由均值向量和标准差向量两部分组成。
解码生成器,经过一层全连接扩充隐向量之后,再由五层反卷积层来生成图片。给解码器提供标准正态分布的隐向量,解码器就可以生成图片,实际操作时,还需要平衡图片重构的精确度和隐向量对标准正态分布的符合度。一般来说,通过平均平方误差来度量图片的相似程度,通过KL散度来评估隐向量与标准正态分布的差异。使用一个参数重构技巧,即不直接生成实数向量,而是通过一个均值向量和一个标准差向量相加来得到隐向量。这样在计算解码器loss时,就可以从标准差向量中采样,再加上均值向量来得到隐向量。既保证解码器生成的图片与原始图片的相似程度,也要让生成的隐向量符合标准正态分布。
判别器。由四层卷积层和一层全连接层组成,训练时需要三个模块各自训练自己的损失函数。标准的GAN使用多层感知机作为网络结构,但是考虑到卷积神经网络在获取图像特征方面的效果,使用了转置卷积操作(transposed convolution operation),它的另一个名字是Deconvolution。转置卷积帮助图像从低清晰度向高清晰度转换,同样的,采用多层转置卷积可以使图像变得生动多彩。
输出模块,将原始图片输入编码器,输出一个标准正态分布的随机编码/隐向量。
生成模块,通过输出模块生成的给解码器提供标准正态分布的隐向量,解码器就可以生成图片,实际操作时需要平衡图片重构的精确度和隐向量对标准正态分布的符合度。
计算模块,将原始图片和生成模块生成的图片输入到判别器,计算编码器、解码生成器和判别器的三个loss值。
迭代模块,根据三个loss值,调整各模块的规则,迭代优化。
在图像生成领域,为了得到表现更好的模型,大多研究思路是构建非常复杂的模型,投入大量计算资源与时间,试图得到表现优异的、不可解释的模型。通过将模型算法拆分重组,尝试优化生成模型架构,提出的VAE-GAN架构组合优化可以避免陷入增加网络深度与堆砌计算资源的消耗之中,利用有限的计算资源提供新的生成模型思路。
实施例3
此外,本发明实施例还提供了一种电子设备,包括总线、收发器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该收发器、该存储器和处理器分别通过总线相连,计算机程序被处理器执行时实现上述抑郁情绪识别的方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
具体的,参见图3所示,本发明实施例还提供了一种电子设备,该电子设备包括总线1110、处理器1120、收发器1130、总线接口1140、存储器1150和用户接口1160。
在本发明实施例中,该电子设备还包括:存储在存储器1150上并可在处理器1120上运行的计算机程序,计算机程序被处理器1120执行时实现上述抑郁情绪识别的方法实施例的各个过程。
收发器1130,用于在处理器1120的控制下接收和发送数据。
本发明实施例中,总线架构(用总线1110来代表),总线1110可以包括任意数量互联的总线和桥,总线1110将包括由处理器1120代表的一个或多个处理器与存储器1150代表的存储器的各种电路连接在一起。
总线1110表示若干类型的总线结构中的任何一种总线结构中的一个或多个,包括存储器总线以及存储器控制器、外围总线、加速图形端口(Accelerate Graphical Port,AGP)、处理器或使用各种总线体系结构中的任意总线结构的局域总线。作为示例而非限制,这样的体系结构包括:工业标准体系结构(Industry Standard Architecture,ISA)总线、微通道体系结构(Micro Channel Architecture,MCA)总线、扩展ISA(Enhanced ISA,EISA)总线、视频电子标准协会(Video Electronics Standards Association,VESA)、外围部件互连(Peripheral Component Interconnect,PCI)总线。
处理器1120可以是一种集成电路芯片,具有信号处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器中硬件的集成逻辑电路或软件形式的指令完成。上述的处理器包括:通用处理器、中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)、复杂可编程逻辑器件(Complex Programmable LogicDevice,CPLD)、可编程逻辑阵列(Programmable Logic Array,PLA)、微控制单元(Microcontroller Unit,MCU)或其他可编程逻辑器件、分立门、晶体管逻辑器件、分立硬件组件。可以实现或执行本发明实施例中公开的各方法、步骤及逻辑框图。例如,处理器可以是单核处理器或多核处理器,处理器可以集成于单颗芯片或位于多颗不同的芯片。
处理器1120可以是微处理器或任何常规的处理器。结合本发明实施例所公开的方法步骤可以直接由硬件译码处理器执行完成,或者由译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存取存储器(Random Access Memory,RAM)、闪存(FlashMemory)、只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、寄存器等本领域公知的可读存储介质中。所述可读存储介质位于存储器中,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
总线1110还可以将,例如外围设备、稳压器或功率管理电路等各种其他电路连接在一起,总线接口1140在总线1110和收发器1130之间提供接口,这些都是本领域所公知的。因此,本发明实施例不再对其进行进一步描述。
收发器1130可以是一个元件,也可以是多个元件,例如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。例如:收发器1130从其他设备接收外部数据,收发器1130用于将处理器1120处理后的数据发送给其他设备。取决于计算机系统的性质,还可以提供用户接口1160,例如:触摸屏、物理键盘、显示器、鼠标、扬声器、麦克风、轨迹球、操纵杆、触控笔。
应理解,在本发明实施例中,存储器1150可进一步包括相对于处理器1120远程设置的存储器,这些远程设置的存储器可以通过网络连接至服务器。上述网络的一个或多个部分可以是自组织网络(ad hoc network)、内联网(intranet)、外联网(extranet)、虚拟专用网(VPN)、局域网(LAN)、无线局域网(WLAN)、广域网(WAN)、无线广域网(WWAN)、城域网(MAN)、互联网(Internet)、公共交换电话网(PSTN)、普通老式电话业务网(POTS)、蜂窝电话网、无线网络、无线保真(Wi-Fi)网络以及两个或更多个上述网络的组合。例如,蜂窝电话网和无线网络可以是全球移动通信(GSM)系统、码分多址(CDMA)系统、全球微波互联接入(WiMAX)系统、通用分组无线业务(GPRS)系统、宽带码分多址(WCDMA)系统、长期演进(LTE)系统、LTE频分双工(FDD)系统、LTE时分双工(TDD)系统、先进长期演进(LTE-A)系统、通用移动通信(UMTS)系统、增强移动宽带(Enhance Mobile Broadband,eMBB)系统、海量机器类通信(massive Machine Type of Communication,mMTC)系统、超可靠低时延通信(UltraReliable Low Latency Communications,uRLLC)系统等。
应理解,本发明实施例中的存储器1150可以是易失性存储器或非易失性存储器,或可包括易失性存储器和非易失性存储器两者。其中,非易失性存储器包括:只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存(Flash Memory)。
易失性存储器包括:随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如:静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,DRRAM)。本发明实施例描述的电子设备的存储器1150包括但不限于上述和任意其他适合类型的存储器。
在本发明实施例中,存储器1150存储了操作系统1151和应用程序1152的如下元素:可执行模块、数据结构,或者其子集,或者其扩展集。
具体而言,操作系统1151包含各种系统程序,例如:框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序1152包含各种应用程序,例如:媒体播放器(Media Player)、浏览器(Browser),用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序1152中。应用程序1152包括:小程序、对象、组件、逻辑、数据结构以及其他执行特定任务或实现特定抽象数据类型的计算机系统可执行指令。
此外,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述抑郁情绪识别的方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
计算机可读存储介质包括:永久性和非永久性、可移动和非可移动媒体,是可以保留和存储供指令执行设备所使用指令的有形设备。计算机可读存储介质包括:电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备以及上述任意合适的组合。计算机可读存储介质包括:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、非易失性随机存取存储器(NVRAM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带存储、磁带磁盘存储或其他磁性存储设备、记忆棒、机械编码装置(例如在其上记录有指令的凹槽中的穿孔卡或凸起结构)或任何其他非传输介质、可用于存储可以被计算设备访问的信息。按照本发明实施例中的界定,计算机可读存储介质不包括暂时信号本身,例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如穿过光纤电缆的光脉冲)或通过导线传输的电信号。
在本申请所提供的几个实施例中,应该理解到,所披露的装置、电子设备和方法,可以通过其他的方式实现。例如,以上描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的、机械的或其他的形式连接。
所述作为分离部件说明的单元可以是或也可以不是物理上分开的,作为单元显示的部件可以是或也可以不是物理单元,既可以位于一个位置,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或全部单元来解决本发明实施例方案要解决的问题。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术作出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(包括:个人计算机、服务器、数据中心或其他网络设备)执行本发明各个实施例所述方法的全部或部分步骤。而上述存储介质包括如前述所列举的各种可以存储程序代码的介质。
以上所述,仅为本发明实施例的具体实施方式,但本发明实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明实施例披露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明实施例的保护范围之内。因此,本发明实施例的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种图像优化方法,其特征在于,所述方法包括下列步骤:
构建VAE-GAN模型,包括编码器、解码生成器和判别器;
将原始图片输入编码器,输出标准正态分布的随机编码/隐向量;
生成给所述解码器提供标准正态分布的隐向量生成图片;
将所述原始图片和所述生成图片输入到所述判别器,所述编码器、所述解码生成器和所述判别器的生成三个loss值;
根据三个loss值,调整各模块的规则,迭代优化。
2.根据权利要求1所述的方法,其特征在于,所述编码器由四层卷积层和一层全连接层组成。
3.根据权利要求1所述的方法,其特征在于,所述解码生成器,经过一层全连接扩充隐向量之后,再由五层反卷积层来生成图片,通过一个均值向量和一个标准差向量相加来得到隐向量。
4.根据权利要求1所述的方法,其特征在于,所述判别器由四层卷积层和一层全连接层组成。
5.一种图像优化装置,其特征在于,所述装置包括下列模块:
构建模块,构建VAE-GAN模型,包括编码器、解码生成器和判别器;
输出模块,将原始图片输入编码器,输出标准正态分布的随机编码/隐向量;
生成模块生成给所述解码器提供标准正态分布的隐向量生成图片;
计算模块,将所述原始图片和所述生成图片输入到所述判别器,所述编码器、所述解码生成器和所述判别器的生成三个loss值;
迭代模块,根据三个loss值,调整各模块的规则,迭代优化。
6.根据权利要求5所述的装置,其特征在于,所述编码器由四层卷积层和一层全连接层组成。
7.根据权利要求5所述的装置,其特征在于,所述解码生成器,经过一层全连接扩充隐向量之后,再由五层反卷积层来生成图片,通过一个均值向量和一个标准差向量相加来得到隐向量。
8.根据权利要求5所述的装置,其特征在于,所述判别器由四层卷积层和一层全连接层组成。
9.一种电子设备,其特征在于,所述电子设备包括有存储器,处理器以及一个或者一个以上的程序,其中所述一个或者一个以上程序存储于所述存储器中,且经配置以由所述处理器执行权利要求1-4任一项所述的方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1-4任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011191533.4A CN114445510A (zh) | 2020-10-30 | 2020-10-30 | 一种图像优化方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011191533.4A CN114445510A (zh) | 2020-10-30 | 2020-10-30 | 一种图像优化方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114445510A true CN114445510A (zh) | 2022-05-06 |
Family
ID=81356828
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011191533.4A Pending CN114445510A (zh) | 2020-10-30 | 2020-10-30 | 一种图像优化方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114445510A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117315354A (zh) * | 2023-09-27 | 2023-12-29 | 南京航空航天大学 | 基于多判别器复合编码gan网络的绝缘子异常检测方法 |
-
2020
- 2020-10-30 CN CN202011191533.4A patent/CN114445510A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117315354A (zh) * | 2023-09-27 | 2023-12-29 | 南京航空航天大学 | 基于多判别器复合编码gan网络的绝缘子异常检测方法 |
CN117315354B (zh) * | 2023-09-27 | 2024-04-02 | 南京航空航天大学 | 基于多判别器复合编码gan网络的绝缘子异常检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2018011842A1 (ja) | 階層ネットワークを用いた演算処理システム | |
CN113726823B (zh) | 一种防御方法、装置、电子设备及存储介质 | |
CN116030792B (zh) | 用于转换语音音色的方法、装置、电子设备和可读介质 | |
CN115496285B (zh) | 一种电力负荷的预测方法、装置及电子设备 | |
CN113327599B (zh) | 语音识别方法、装置、介质及电子设备 | |
CN113570695B (zh) | 一种图像生成方法、装置及电子设备 | |
CN112348123A (zh) | 一种用户聚类的方法、装置及电子设备 | |
US20230252294A1 (en) | Data processing method, apparatus, and device, and computer-readable storage medium | |
JP2023001926A (ja) | 画像融合方法及び装置、画像融合モデルのトレーニング方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム | |
CN117910518B (zh) | 生成式数据分析方法及系统 | |
CN112565834A (zh) | 一种控制输出数据的方法、装置及电子设备 | |
US20240242467A1 (en) | Video encoding and decoding method, encoder, decoder and storage medium | |
CN115426075A (zh) | 语义通信的编码传输方法及相关设备 | |
US11989891B2 (en) | System and method for 3D multi-object tracking in LiDAR point clouds | |
US20190287514A1 (en) | Voice recognition method, device and computer storage medium | |
CN114445510A (zh) | 一种图像优化方法、装置、电子设备和存储介质 | |
CN112948582B (zh) | 一种数据处理方法、装置、设备以及可读介质 | |
CN111797220B (zh) | 对话生成方法、装置、计算机设备和存储介质 | |
WO2021037174A1 (zh) | 一种神经网络模型训练方法及装置 | |
US11733388B2 (en) | Method, apparatus and electronic device for real-time object detection | |
JP2023169230A (ja) | コンピュータプログラム、サーバ装置、端末装置、学習済みモデル、プログラム生成方法、及び方法 | |
CN117173269A (zh) | 一种人脸图像生成方法、装置、电子设备和存储介质 | |
CN113380231B (zh) | 一种语音转换的方法、装置及电子设备 | |
KR20230141932A (ko) | 적응형 시각적 스피치 인식 | |
CN110188367B (zh) | 一种数据处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |