CN113505829B - 一种基于变分自编码器的表情序列自动生成方法 - Google Patents

一种基于变分自编码器的表情序列自动生成方法 Download PDF

Info

Publication number
CN113505829B
CN113505829B CN202110776663.2A CN202110776663A CN113505829B CN 113505829 B CN113505829 B CN 113505829B CN 202110776663 A CN202110776663 A CN 202110776663A CN 113505829 B CN113505829 B CN 113505829B
Authority
CN
China
Prior art keywords
encoder
expression
self
sequence
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110776663.2A
Other languages
English (en)
Other versions
CN113505829A (zh
Inventor
商琳
张明月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202110776663.2A priority Critical patent/CN113505829B/zh
Publication of CN113505829A publication Critical patent/CN113505829A/zh
Application granted granted Critical
Publication of CN113505829B publication Critical patent/CN113505829B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供了一种基于变分自编码器的表情序列自动生成方法,包括:(1)在大规模人脸数据集上预训练变分自编码器,使变分自编码器初步具备生成人脸图片的功能。(2)对表情变化序列等间隔取三元组,获取表情连续变化的三元组。(3)利用深度度量学习方法,用三元组的三元损失自监督训练变分自编码器。(4)经过上述步骤,变分自编码具备细粒度的特点,能感知面部表情强度,因此对编码器生成的向量进行插值再解码,即可得到一个完整的表情变化序列。

Description

一种基于变分自编码器的表情序列自动生成方法
技术领域
本发明涉及一种基于变分自编码器的表情序列自动生成方法。
背景技术
VAE作为生成模型的一种,可以用于表情序列生成,用两张表情图片通过潜变量插值生成表情变化的连续序列,补全整个变化过程。传统的VAE采用无监督学习方法将复杂的数据映射到一个低维空间中,忽略了数据中显著的特征。而对于表情数据来说,最显著的特征就是表情类别和强度。故而用传统的VAE进行表情序列的生成任务时,由于其不具备对表情强度的感知能力,生成的表情序列连续性较差,对于幅度小的表情无法生成自然的表情变化过程。
深度度量学习通过数据学习一个从原始数据空间到高维欧氏空间的映射,这个映射的目标就是同类数据在这个空间中距离较近,异类数据在这个空间中距离较远。损失函数在深度度量学习中起到了非常大的作用,其中基于三元组的三元损失是常用的损失函数。
变分自编码器是一类生成模型,其结构与自编码器类似,也是由编码器和解码器构成的。编码器将数据的高级特征映射到低级表征(潜在向量),而解码器将数据从低级表征解码回对应的高级表征。不同之处在于自编码器只是简单地进行数据的映射和重建,只具备“记忆”功能,不能通过构建潜在变量使解码器生成新的但是符合原始数据分布的数据。变分自编码器在网络中添加一个约束条件——强制潜在向量的分布符合高斯分布,从而通过构建潜在向量利用解码器生成新的数据。
发明内容
发明目的:本发明的目的在于提出一种将深度度量学习和变分自编码器相结合的方法,增强变分自编码器对表情强度的感知能力,从而生成表情序列。单纯的变分自编码器很难学到关于表情的细粒度特征,本发明希望实现一个具备表情强度感知能力的变分自编码器,模型除了重建损失和相对熵损失之外,还生成了表情三元组引入了三元损失以自监督训练变分自编码器,使其不仅能感知面部表情,还能感知面部表情强度。
发明步骤:本算法的步骤主要分为三大部分:1)预训练变分自编码器VAE;2)生成三元组;3)自监督训练VAE;4)生成表情序列。具体的步骤如下:
步骤1,预训练变分自编码器VAE:通过在大规模人脸数据集celebA上预训练,平衡重建损失Lrecon和相对熵损失LKL的权重,使VAE具有随机生成人脸图像的作用;
步骤2,生成三元组:使用Oulu-CASIA数据集,对Oulu-CASIA数据集中的每一个视频序列进行采样,生成等间隔的三帧图片,每三帧构成一个三元组;
步骤3,自监督训练变分自编码器VAE:使用深度度量学习方法,利用三元组中隐含的表情距离信息,用三元损失自监督训练变分自编码器VAE;
步骤4,生成表情序列:对两张同一人的表情图片分别通过变分自编码器VAE的编码器encoder得到各自的嵌入向量embedding,对两个嵌入向量embedding进行线性插值,然后通过解码器decoder对插值得到的嵌入向量embedding进行解码得到整个表情变化序列。
步骤1包括以下步骤:
步骤1-1,变分自编码器VAE通过编码器encoder将图片x编码为一个潜向量然后通过解码器decoder将潜向量z解码为图片/>其中/>θ分别是编码器和解码器网络的参数,设置z的维度为100;/>表示通过可参数化的一簇分布来近似z的后验分布,pθ(x|z)表示通过可参数化的一簇分布来近似x的分布;
步骤1-2,定义重建损失为Lrecon,用于度量输入图片和输出图片的差异,重建损失的权重因子为α:
表示从编码器采样z之后用解码器重建x得到的对数似然,为了让解码器能尽可能把隐变量z还原成编码器的输入X;
步骤1-3,定义相对熵损失为LKL,用于衡量两个概率分布之间的距离,相对熵损失的权重因子为β:
p(z)是z的先验分布,一般采用高斯分布;DKL是相对熵,也称KL散度,用于衡量任意两个概率分布p(x),q(x)之间的距离,计算公式为:
步骤1-4,在网络预训练过程中,前N1(一般取值为1000)轮设置β=0,N1~N2轮次设置β线性增长至1,每N3轮次更新一次。N2一般取值为2000,N3一般取值为20,训练损失为:αLrecon+βLKL
步骤2包括以下步骤:
步骤2-1,定义Oulu-CASIA数据集中每一个视频序列为<x1,x2,x3,...,xn>,其中xn表示视频序列的第n帧;
步骤2-2,从每一个视频序列中按等间隔k=2采样出所有满足间隔条件的三元组,分别是<xn-4,xn-2,xn>,<xn-4,xn-2,xn>,<xn-5,xn-3,xn-1>,<xn-6,xn-4,xn-2>,<xn-7,xn-5,xn-3>,<xn-8,xn-6,xn-4>
步骤3包括以下步骤:
步骤3-1,对于步骤2-2中得到的每一个三元组,记为<xa,xp,xn>,其中xa表示参考帧anchor,xp表示正帧positive,xn表示负帧negative;定义xa与xp之间的距离为dist(za,zp),定义xa与xn之间的距离为dist(za,zn),其中za,zp,zn代表的是变分自编码器VAE将xa,xp,xn用编码器编码得到的100维向量;
步骤3-2,xa与xp之间的距离小于xa与xn之间的距离,即dist(za,zp)<dist(za,zn);
步骤3-3,定义三元损失函数Ltri
Ltri=max(dist(za,zp)-dist(za,zn)+m,0),
其中m是一个超参数,一般取m=0.3;
步骤3-4,重建损失Lrecon3和相对熵损失LKL3为三元组中每张图片产生的损失之和:
步骤3-5,训练变分自编码器VAE,使用的总损失函数L为:
L=αLrecon3+βLKL3+γLtri
其中α=1.0,β=0.3,γ=0.5,三元损失越小,表明网络对于表情强度的感知能力越强。γ为三元损失函数的权重因子。
步骤4包括以下步骤:
步骤4-1,任取同一人的两张表情图片x1和x2,用变分自编码器VAE分别生成表情图片x1和x2的向量z1和z2
步骤4-2,在向量z1和z2之间线性插值,得到一个向量序列(序列长度可依据插值数量进行调节);
步骤4-3,用解码器decoder对步骤4-2得到的向量序列逐个进行解码,生成一个表情强度连续变化的表情图片序列,完成了表情序列的生成。
有益效果:本发明方法能够更好地提升变分自编码器提取细粒度表情特征的能力,从而生成更好的表情嵌入空间,使得生成的表情序列具备很好的连续性。本发明通过深度度量学习方法,自监督训练变分自编码器,使得变分自编码器学到更细粒度的表情特征,具备感知表情强度的能力,从而能够得到表情变化序列。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是本发明的总体框架图。
图2则是本发明生成表情序列的示例。
具体实施方式
如图1所示,本模型包含三个共享权重的变分自编码器VAE,输入为三元组,对输出中间结果嵌入向量添加三元度量损失限制,最终的损失函数除了包含每一张图片的重建损失和相对熵损失,还包含了整个三元组的三元损失。接下来结合步骤做具体说明:
步步骤1,预训练变分自编码器VAE:通过在大规模人脸数据集celebA上预训练,平衡重建损失Lrecon和相对熵损失LKL的权重,使VAE具有随机生成人脸图像的作用;
步骤2,生成三元组:使用Oulu-CASIA数据集,对数据集中的每一个视频序列进行采样,生成等间隔的三帧图片,每三帧构成一个三元组;
步骤3,自监督训练VAE:使用深度度量学习方法,利用三元组中隐含的表情距离信息,用三元损失自监督训练VAE;
步骤4,生成表情序列:对两张同一人的表情图片通过VAE的编码器encoder得到嵌入向量embedding,对两个embedding进行线性插值,然后通过解码器decoder对插值得到的embedding进行解码得到整个表情变化序列。
步骤1包括以下步骤:
步骤1-1,变分自编码器VAE通过编码器encoder将图片x编码为一个潜向量然后通过解码器decoder将潜向量z解码为图片/>其中/>θ分别是编码器和解码器网络的参数,设置z的维度为100;
步骤1-2,定义重建损失为Lrecon,权重因子为α,并设置为1;
步骤1-3,定义相对熵损失为LKL,权重因子为β;
步骤1-4,在网络预训练过程中,前1000轮设置β=0,1000-20000轮次设置β线性增长至1,每20轮次更新一次。
步骤2包括以下步骤:
步骤2-1,定义数据集中每一个视频序列为<x1,x2,x3,...,xn>;
步骤2-2,从每一个视频序列中采样出5个三元组,分别是<xn-4,xn-2,xn>,<xn-4,xn-2,xn>,<xn-5,xn-3,xn-1>,<xn-6,xn-4,xn-2>,<xn-7,xn-5,xn-3>,<xn-8,xn-6,xn-4>。
步骤3包括以下步骤:
步骤3-1,对于步骤2-2中得到的每一个三元组,记为<xa,xp,xn>,其中xa表示参考帧anchor,xp表示正帧positive,xn表示负帧negative;定义xa与xp之间的距离为dist(za,zp),定义xa与xn之间的距离为dist(za,zn),其中za,zp,zn代表的是变分自编码器VAE将xa,xp,xn用编码器编码得到的100维向量;
步骤3-2,xa与xp之间的距离应当小于xa与xn之间的距离,即dist(za,zp)<dist(za,zn);
步骤3-3,定义三元损失函数Ltri
Ltri=max(dist(za,zp)-dist(za,zn)+m,0),
其中m是一个超参数;
步骤3-4,重建损失和相对熵损失为三元组中每张图片产生的损失之和:
步骤3-5,训练变分自编码器VAE,使用的总损失函数L为:
L=αLrecon3+βLKL3+γLtri,其中γ为三元损失函数的权重因子,三元损失越小,表明网络对表情强度的感知能力越强。
步骤4包括以下步骤:
步骤4-1,任取同一人的两张表情图片x1和x2,用编码器生成向量z和z2
步骤4-2,在向量z1和z2之间线性插值,得到一个向量序列(序列长度可依据插值数量进行调节);
步骤4-3,用解码器对这个向量序列逐个进行解码,即可生成一个表情强度连续变化的表情图片序列,完成了表情序列的生成。
实施例
本发明可以用于完整表情序列的生成,可以完成面部表情视频的插帧,可以将静态图片转换成动态视频。日常生活中,使用者拍摄的同一人的任意两种表情,都可以通过本发明提出的模型进行表情序列的生成,生成两张静态表情图片的动态变化过程。
为了验证本发明的有效性,将本发明在Oulu-CASIA数据集上进行了训练和测试,本训练集共包括80个人的6个表情序列,共480个表情序列,取72个人的432个表情序列作为训练集,取剩下8个人的24个表情序列作为测试集,其中训练集包含2160个三元组,测试集包含120个三元组。
本实施例分别从定量和定性的角度给出了本发明的实验结果。
表1
用嵌入向量embedding作为数据,训练支持向量机SVM对表情进行分类,得到无监督分类结果如表1所示。其中基线模型Baseline表示没有加入三元损失的普通VAE的分类结果,3f表示对一个序列的最后三帧进行分类,2/3f表示对一个序列的最后2/3帧进行分类。从表中可以看出,对最后三帧进行分类,我们的模型超出基线模型3.75%,对后2/3帧进行分类,本发明的模型超出基线模型9.34%,而且,从最后三帧到最后三分之二帧,极限模型精度下降了8.07%,而本发明的模型仅下降了2.48%,这说明本发明的模型具备对强度较弱的表情的感知能力。图2给出了本发明生成表情序列的视觉效果,训练的模型不仅可以从生成从无表情到其他表情的序列,还可以生成从一种表情到另一种表情的序列。
图2给出了本发明生成表情序列的视觉效果,训练的模型不仅可以从生成从无表情到其他表情的序列,还可以生成从一种表情到另一种表情的序列。
本发明提供了一种基于变分自编码器的表情序列自动生成方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (5)

1.一种基于变分自编码器的表情序列自动生成方法,其特征在于,包括如下步骤:
步骤1,预训练变分自编码器VAE;
步骤2,生成三元组:使用Oulu-CASIA数据集,对Oulu-CASIA数据集中的每一个视频序列进行采样,生成等间隔的三帧图片,每三帧构成一个三元组;
步骤3,自监督训练变分自编码器VAE:使用深度度量学习方法,利用三元组中隐含的表情距离信息,用三元损失自监督训练变分自编码器VAE;
步骤4,生成表情序列;
步骤1包括以下步骤:
步骤1-1,变分自编码器VAE通过编码器encoder将图片x编码为一个潜向量然后通过解码器decoder将潜向量z解码重建为图片/>其中/>θ分别是编码器和解码器网络的参数,/>表示通过可参数化的一簇分布来近似z的后验分布,pθ(x|z)表示通过可参数化的一簇分布来近似x的分布;
步骤1-2,定义重建损失为Lrecon,用于度量输入图片和输出图片的差异,重建损失的权重因子为α:
表示从编码器采样z之后用解码器重建x得到的对数似然;
步骤1-3,定义相对熵损失为LKL,相对熵损失的权重因子为β:
p(z)是z的先验分布;DKL是相对熵,用于衡量任意两个概率分布p(x),q(x)之间的距离;
步骤1-4,在网络预训练过程中,前N1轮设置β=0,N1~N2轮次设置β线性增长至1,每N3轮次更新一次,训练损失为:αLrecon+βLKL
2.根据权利要求1所述的方法,其特征在于,步骤1-3中,DKL的计算公式为:
3.根据权利要求2所述的方法,其特征在于,步骤2包括以下步骤:
步骤2-1,定义Oulu-CASIA数据集中每一个视频序列为<x1,x2,x3,…,xn>,其中xn表示视频序列的第n帧;
步骤2-2,从每一个视频序列中按等间隔k采样出所有满足间隔条件的三元组,分别是<xn-4,xn-2,xn>,<xn-4,xn-2,xn>,<xn-5,xn-3,xn-1>,<xn-6,xn-4,xn-2>,<xn-7,xn-5,xn-3>,<xn-8,xn-6,xn-4>。
4.根据权利要求3所述的方法,其特征在于,步骤3包括以下步骤:
步骤3-1,对于步骤2-2中得到的每一个三元组,记为<xa,xp,xn>,其中xa表示参考帧anchor,xp表示正帧positive,xn表示负帧negative;定义xa与xp之间的距离为dist(za,zp),定义xa与xn之间的距离为dist(za,zn),其中za,zp,zn代表的是变分自编码器VAE将xa,xp,xn用编码器编码得到的向量;
步骤3-2,xa与xp之间的距离小于xa与xn之间的距离,即dist(za,zp)<dist(za,zn);
步骤3-3,定义三元损失函数Ltri
Ltri=max(dist(za,zp)-dist(za,zn)+m,0),
其中m是一个超参数;
步骤3-4,重建损失Lrecon3和相对熵损失LKL3为三元组中每张图片产生的损失之和:
步骤3-5,训练变分自编码器VAE,使用的总损失函数L为:
L=αLrecon3+βLKL3+γLtri
其中γ为三元损失函数的权重因子。
5.根据权利要求4所述的方法,其特征在于,步骤4包括:
步骤4-1,任取同一人的两张表情图片x1和x2,用变分自编码器VAE分别生成表情图片x1和x2的向量z1和z2
步骤4-2,在向量z1和z2之间线性插值,得到一个向量序列;
步骤4-3,用解码器decoder对步骤4-2得到的向量序列逐个进行解码,生成一个表情强度连续变化的表情图片序列。
CN202110776663.2A 2021-07-09 2021-07-09 一种基于变分自编码器的表情序列自动生成方法 Active CN113505829B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110776663.2A CN113505829B (zh) 2021-07-09 2021-07-09 一种基于变分自编码器的表情序列自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110776663.2A CN113505829B (zh) 2021-07-09 2021-07-09 一种基于变分自编码器的表情序列自动生成方法

Publications (2)

Publication Number Publication Date
CN113505829A CN113505829A (zh) 2021-10-15
CN113505829B true CN113505829B (zh) 2024-04-26

Family

ID=78011952

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110776663.2A Active CN113505829B (zh) 2021-07-09 2021-07-09 一种基于变分自编码器的表情序列自动生成方法

Country Status (1)

Country Link
CN (1) CN113505829B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108389239A (zh) * 2018-02-23 2018-08-10 深圳市唯特视科技有限公司 一种基于条件多模式网络的微笑脸部视频生成方法
CN110633748A (zh) * 2019-09-16 2019-12-31 电子科技大学 一种鲁棒的自动人脸融合方法
CN110868598A (zh) * 2019-10-17 2020-03-06 上海交通大学 基于对抗生成网络的视频内容替换方法及系统
CN111325794A (zh) * 2020-02-23 2020-06-23 哈尔滨工业大学 一种基于深度卷积自编码器的视觉同时定位与地图构建方法
CN111445548A (zh) * 2020-03-21 2020-07-24 南昌大学 一种基于非配对图像的多视角人脸图像生成方法
CN111488932A (zh) * 2020-04-10 2020-08-04 中国科学院大学 一种基于帧率感知的自监督视频时-空表征学习方法
CN111582059A (zh) * 2020-04-20 2020-08-25 哈尔滨工程大学 一种基于变分自编码器的人脸表情识别方法
CN111966998A (zh) * 2020-07-23 2020-11-20 华南理工大学 基于变分自动编码器的口令生成方法、系统、介质和设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11205121B2 (en) * 2018-06-20 2021-12-21 Disney Enterprises, Inc. Efficient encoding and decoding sequences using variational autoencoders

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108389239A (zh) * 2018-02-23 2018-08-10 深圳市唯特视科技有限公司 一种基于条件多模式网络的微笑脸部视频生成方法
CN110633748A (zh) * 2019-09-16 2019-12-31 电子科技大学 一种鲁棒的自动人脸融合方法
CN110868598A (zh) * 2019-10-17 2020-03-06 上海交通大学 基于对抗生成网络的视频内容替换方法及系统
CN111325794A (zh) * 2020-02-23 2020-06-23 哈尔滨工业大学 一种基于深度卷积自编码器的视觉同时定位与地图构建方法
CN111445548A (zh) * 2020-03-21 2020-07-24 南昌大学 一种基于非配对图像的多视角人脸图像生成方法
CN111488932A (zh) * 2020-04-10 2020-08-04 中国科学院大学 一种基于帧率感知的自监督视频时-空表征学习方法
CN111582059A (zh) * 2020-04-20 2020-08-25 哈尔滨工程大学 一种基于变分自编码器的人脸表情识别方法
CN111966998A (zh) * 2020-07-23 2020-11-20 华南理工大学 基于变分自动编码器的口令生成方法、系统、介质和设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度学习的跨模态人脸识别;廖艳冰;《中国优秀硕士学位论文全文数据库(电子期刊)信息科技辑》;20190915;全文 *

Also Published As

Publication number Publication date
CN113505829A (zh) 2021-10-15

Similar Documents

Publication Publication Date Title
Pandey et al. Diffusevae: Efficient, controllable and high-fidelity generation from low-dimensional latents
CN111368662B (zh) 一种人脸图像属性编辑方法、装置、存储介质及设备
Giryes et al. Tradeoffs between convergence speed and reconstruction accuracy in inverse problems
CN109033095B (zh) 基于注意力机制的目标变换方法
CN111127146B (zh) 基于卷积神经网络与降噪自编码器的信息推荐方法及系统
Yin et al. Highly accurate image reconstruction for multimodal noise suppression using semisupervised learning on big data
CN113658051A (zh) 一种基于循环生成对抗网络的图像去雾方法及系统
US20210397945A1 (en) Deep hierarchical variational autoencoder
CN110135386B (zh) 一种基于深度学习的人体动作识别方法和系统
CN111583105B (zh) 人像生成方法、装置、设备及存储介质
US20220156987A1 (en) Adaptive convolutions in neural networks
CN112017255A (zh) 一种根据食谱生成食物图像的方法
CN116363261A (zh) 图像编辑模型的训练方法、图像编辑方法和装置
Yuan et al. Compositional scene representation learning via reconstruction: A survey
Deja et al. End-to-end sinkhorn autoencoder with noise generator
US20220398697A1 (en) Score-based generative modeling in latent space
CN110415261B (zh) 一种分区域训练的表情动画转换方法及系统
CN117522697A (zh) 一种人脸图像生成方法、系统及模型训练方法
Peng et al. Deep network quantization via error compensation
CN113505829B (zh) 一种基于变分自编码器的表情序列自动生成方法
Lodagala et al. Ccc-wav2vec 2.0: Clustering aided cross contrastive self-supervised learning of speech representations
Knop et al. Generative models with kernel distance in data space
CN117097876B (zh) 基于神经网络的事件相机图像重建方法
CN104573726B (zh) 基于四等分及各成分重构误差最优组合的人脸图像识别方法
CN112380374B (zh) 一种基于语义扩充的零样本图像分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant