CN108389239A - 一种基于条件多模式网络的微笑脸部视频生成方法 - Google Patents

一种基于条件多模式网络的微笑脸部视频生成方法 Download PDF

Info

Publication number
CN108389239A
CN108389239A CN201810155144.2A CN201810155144A CN108389239A CN 108389239 A CN108389239 A CN 108389239A CN 201810155144 A CN201810155144 A CN 201810155144A CN 108389239 A CN108389239 A CN 108389239A
Authority
CN
China
Prior art keywords
sequence
image
condition
facial
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201810155144.2A
Other languages
English (en)
Inventor
夏春秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Vision Technology Co Ltd
Original Assignee
Shenzhen Vision Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Vision Technology Co Ltd filed Critical Shenzhen Vision Technology Co Ltd
Priority to CN201810155144.2A priority Critical patent/CN108389239A/zh
Publication of CN108389239A publication Critical patent/CN108389239A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明中提出的一种基于条件多模式网络的微笑脸部视频生成方法,其主要内容包括:条件递归标记生成器、多模式递归标记生成器、标记序列到视频的转换、训练,其过程为,条件递归标记生成器先从输入人脸计算标记图像,将其编码成紧凑表示并生成对应于所需面部表情类别的标记序列,其次,多模式递归标记生成器接收这个序列,并产生具有明显不同特征的同一类的K个序列,最后,视频转换模块的标记序列接收这些标记序列和初始无表情人脸图像,产生输出的面部表情视频。本发明提出的条件多模式网络减少了网络参数的数量和训练所需的数据量,大大降低了计算成本,生成的微笑表情视频逼真度较高。

Description

一种基于条件多模式网络的微笑脸部视频生成方法
技术领域
本发明涉及表情合成领域,尤其是涉及了一种基于条件多模式网络的微笑脸部视频生成方法。
背景技术
面部表情是人际交流中最重要的非言语信号之一。几十年来,计算机视觉的研究人员致力于研究如何自动识别这些信号以及如何生成不同的面部表情,例如,脸部自发的微笑。面部表情生成技术(包括微笑表情的生成等)在电影电视剧、动画、智能人机互动等都具有广泛的应用前景。如在影视、游戏或广告中的角色模拟,通过应用面部表情生成技术,可以在无表情面部的基础上生成如微笑、愤怒、伤心等多种表情,从而在降低制作成本的同时提升制作的整体效果。在智能人机交互或手机应用等方面,相关应用可以摄取用户在无表情状态下的图片,利用面部表情生成技术来合成各种表情,满足用户的不同需求。然而,目前很少有关于视频生成的研究或在视频生成预测动作的方法。在这种情况下,由于当前的视频生成模型只关注创建单个序列,因此如何在给定单个输入图像的情况下生成不同的视频序列仍然存在巨大的挑战。
本发明提出了一种基于条件多模式网络的微笑脸部视频生成方法,条件递归标记生成器先从输入人脸计算标记图像,将其编码成紧凑表示并生成对应于所需面部表情类别的标记序列,其次,多模式递归标记生成器接收这个序列,并产生具有明显不同特征的同一类的K个序列,最后,视频转换模块的标记序列接收这些标记序列和初始无表情人脸图像,产生输出的面部表情视频。本发明提出的条件多模式网络减少了网络参数的数量和训练所需的数据量,大大降低了计算成本,生成的微笑表情视频逼真度较高。
发明内容
针对生成不同的视频序列存在困难的问题,本发明的目的在于提供一种基于条件多模式网络的微笑脸部视频生成方法,条件递归标记生成器先从输入人脸计算标记图像,将其编码成紧凑表示并生成对应于所需面部表情类别的标记序列,其次,多模式递归标记生成器接收这个序列,并产生具有明显不同特征的同一类的K个序列,最后,视频转换模块的标记序列接收这些标记序列和初始无表情人脸图像,产生输出的面部表情视频。
为解决上述问题,本发明提供一种基于条件多模式网络的微笑脸部视频生成方法,其主要内容包括:
(一)条件递归标记生成器;
(二)多模式递归标记生成器;
(三)标记序列到视频的转换;
(四)训练。
其中,所述的条件多模式网络,整个体系结构由三个模块组成,它们能够生成对应于人和给定的面部表情类的多个面部表情序列;首先,条件递归标记生成器从输入人脸计算标记图像,将其编码成紧凑表示并生成对应于所需面部表情类别的标记序列;其次,多模式递归标记生成器接收这个序列并产生具有明显不同特征的同一类的K个序列;最后,视频转换模块的标记序列接收这些标记序列和初始无表情人脸图像以产生输出的面部表情视频。
进一步地,所述的输入和输出,整个架构被命名为条件多模式递归网络;输入由无表情面部图像和所需表情标签组成;输出是一组K个面部视频,每个视频包含与指定类相对应的不同面部表情序列。
其中,所述的条件递归标记生成器,接收面部图像和调整面部表情标签作为输入;从人脸图像中自动提取标记图像,并使用标准变分自动编码器(VAE)将其编码为紧凑嵌入,记为h0;使用条件长短期记忆(LSTM)递归神经网络来生成T个面部界标嵌入序列,由h=(h1,…,hT)表示;条件标签在条件LSTM的所有时间步骤被编码和输入;嵌入序列h被进一步解码成标记图像序列x=(x1,…,xT),其通过计算逐像素二进制交叉熵(BCE)损失,鼓励其接近训练界标图像序列y;更详细地说,给定N个长度为T的序列的训练集,{yn条件递归标记产生器的损失为:
其中,⊙和log分别表示元素结果和自然对数操作
其中,所述的多模式递归标记生成器,设计多模式递归标记生成器,由K个LSTM组成,其输入是由条件LSTM产生的嵌入序列:h1,…,hT,并且输出是一组K个生成的序列简而言之,这是一个一对多的序列映射,必须以无监督的方式学习。
进一步地,所述的序列,在形式上,将(h1*,…,hT*)定义为模式平均生成的标记编码序列,作为时间平均的标记嵌入序列集;首先,在生成器平均值(h1*,…,hT*)和由条件LSTM(h1,…,hT)产生的序列之间施加均方误差损失:
使用交叉熵损失来区分从K个生成器获得的序列:
其中,φk表示鉴别器的第k个输出(一个全连接层,后面是一个Softmax层);因此,整体架构是生成对抗网络(GAN)的,即层次型LSTM具有区分不同生成器的鉴别器;在GAN中,生成器和鉴别器相互竞争。
其中,所述的标记序列到视频的转换,该体系结构的最后一个模块负责生成面部视频,即将由两个第一模块生成的面部界标嵌入转换为图像序列;为此,在面部标记图像解码器之后采用类似U-Net的结构;令表示与第n个训练序列相关的输入无表情人脸图像;与已经用于训练先前模块的面部标记图像一起,该数据集包含由 表示的人脸图像(从其中注释面部标记);
为了训练转换模块,采用重建损失和对抗损失的组合,以生成局部接近标定好的真实数据和全局真实的图像;表示以面部标记图像和无表情面部图像生成的面部图像,其参数为
进一步地,所述的重建损失和对抗损失,重建损失为:
对抗损失根据实数生成图像对:
当生成器固定时,鉴别器被训练为最大化公式(5);当鉴别器固定时,生成器被训练为共同最小化关于的对抗和重建损失:
使用特征映射的像素级的对抗损失;即最粗糙的特征图的每个像素有一个标签,而不是每个图像有一个标签;直观地说,这种损失应该能够单独聚焦在图像的许多部分,而不是将图像看作一个整体。
其中,所述的训练,条件多模式网络体系结构的训练分三个阶段完成;首先,训练标记嵌入VAE,以重建一组标记图像在添加条件LSTM之前,VAE接受了50个时期的训练;第二阶段是对VAE进行微调,并对20个时期的标记图像序列的数据集训练第一层LSTM;第三阶段是添加多模式递归标记生成器;因此,VAE和LSTM可以同时精确调整K个不同的LSTM从头开始学习。
进一步地,所述的添加多模式递归标记生成器,这一阶段包括先前定义的重建,推-拉损失函数,并持续10个时期;最后,视频转化模块的标志性序列与其余20个时期的训练分开。
附图说明
图1是本发明一种基于条件多模式网络的微笑脸部视频生成方法的系统流程图。
图2是本发明一种基于条件多模式网络的微笑脸部视频生成方法的条件递归标记生成器和多模式递归标记生成器。
图3是本发明一种基于条件多模式网络的微笑脸部视频生成方法的标记序列到视频的转换。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于条件多模式网络的微笑脸部视频生成方法的系统流程图。主要包括条件递归标记生成器,多模式递归标记生成器,标记序列到视频的转换,训练。
条件多模式网络整个体系结构由三个模块组成,它们能够生成对应于人和给定的面部表情类的多个面部表情序列;首先,条件递归标记生成器从输入人脸计算标记图像,将其编码成紧凑表示并生成对应于所需面部表情类别的标记序列;其次,多模式递归标记生成器接收这个序列并产生具有明显不同特征的同一类的K个序列;最后,视频转换模块的标记序列接收这些标记序列和初始无表情人脸图像以产生输出的面部表情视频。
整个架构被命名为条件多模式递归网络;输入由无表情面部图像和所需表情标签组成;输出是一组K个面部视频,每个视频包含与指定类相对应的不同面部表情序列。
其中,条件多模式网络体系结构的训练分三个阶段完成;首先,训练标记嵌入VAE,以重建一组标记图像在添加条件LSTM之前,VAE接受了50个时期的训练;第二阶段是对VAE进行微调,并对20个时期的标记图像序列的数据集训练第一层LSTM;第三阶段是添加多模式递归标记生成器;因此,VAE和LSTM可以同时精确调整K个不同的LSTM从头开始学习。这一阶段包括先前定义的重建,推-拉损失函数,并持续10个时期;最后,视频转化模块的标志性序列与其余20个时期的训练分开。
图2是本发明一种基于条件多模式网络的微笑脸部视频生成方法的条件递归标记生成器和多模式递归标记生成器。
其中,条件递归标记生成器接收面部图像和调整面部表情标签作为输入;从人脸图像中自动提取标记图像,并使用标准变分自动编码器(VAE)将其编码为紧凑嵌入,记为h0;使用条件长短期记忆(LSTM)递归神经网络来生成T个面部界标嵌入序列,由h=(h1,…,hT)表示;条件标签在条件LSTM的所有时间步骤被编码和输入;嵌入序列h被进一步解码成标记图像序列x=(x1,…,xT),其通过计算逐像素二进制交叉熵(BCE)损失,鼓励其接近训练界标图像序列y;更详细地说,给定N个长度为T的序列的训练集,条件递归标记产生器的损失为:
其中,⊙和log分别表示元素结果和自然对数操作。
设计多模式递归标记生成器,由K个LSTM组成,其输入是由条件LSTM产生的嵌入序列:h1,…,hT,并且输出是一组K个生成的序列简而言之,这是一个一对多的序列映射,必须以无监督的方式学习。
在形式上,将(h1*,…,hT*)定义为模式平均生成的标记编码序列,作为时间平均的标记嵌入序列集;首先,在生成器平均值(h1*,…,hT*)和由条件LSTM(h1,…,hT)产生的序列之间施加均方误差损失:
使用交叉熵损失来区分从K个生成器获得的序列:
其中,φk表示鉴别器的第k个输出(一个全连接层,后面是一个Softmax层);因此,整体架构是生成对抗网络(GAN)的,即层次型LSTM具有区分不同生成器的鉴别器;在GAN中,生成器和鉴别器相互竞争。
图3是本发明一种基于条件多模式网络的微笑脸部视频生成方法的标记序列到视频的转换。该体系结构的最后一个模块负责生成面部视频,即将由两个第一模块生成的面部界标嵌入转换为图像序列;为此,在面部标记图像解码器之后采用类似U-Net的结构;令表示与第n个训练序列相关的输入无表情人脸图像;与已经用于训练先前模块的面部标记图像一起,该数据集包含由表示的人脸图像(从其中注释面部标记);
为了训练转换模块,采用重建损失和对抗损失的组合,以生成局部接近标定好的真实数据和全局真实的图像;表示以面部标记图像和无表情面部图像生成的面部图像,其参数为
重建损失为:
对抗损失根据实数生成图像对:
当生成器固定时,鉴别器被训练为最大化公式(5);当鉴别器固定时,生成器被训练为共同最小化关于的对抗和重建损失:
使用特征映射的像素级的对抗损失;即最粗糙的特征图的每个像素有一个标签,而不是每个图像有一个标签;直观地说,这种损失应该能够单独聚焦在图像的许多部分,而不是将图像看作一个整体。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims (10)

1.一种基于条件多模式网络的微笑脸部视频生成方法,其特征在于,主要包括条件递归标记生成器(一);多模式递归标记生成器(二);标记序列到视频的转换(三);训练(四)。
2.基于权利要求书1所述的条件多模式网络,其特征在于,整个体系结构由三个模块组成,它们能够生成对应于人和给定的面部表情类的多个面部表情序列;首先,条件递归标记生成器从输入人脸计算标记图像,将其编码成紧凑表示并生成对应于所需面部表情类别的标记序列;其次,多模式递归标记生成器接收这个序列并产生具有明显不同特征的同一类的K个序列;最后,视频转换模块的标记序列接收这些标记序列和初始无表情人脸图像以产生输出的面部表情视频。
3.基于权利要求书2所述的输入和输出,其特征在于,整个架构被命名为条件多模式递归网络;输入由无表情面部图像和所需表情标签组成;输出是一组K个面部视频,每个视频包含与指定类相对应的不同面部表情序列。
4.基于权利要求书1所述的条件递归标记生成器(一),其特征在于,条件递归标记生成器接收面部图像和调整面部表情标签作为输入;从人脸图像中自动提取标记图像,并使用标准变分自动编码器(VAE)将其编码为紧凑嵌入,记为h0;使用条件长短期记忆(LSTM)递归神经网络来生成T个面部界标嵌入序列,由h=(h1,…,hT)表示;条件标签在条件LSTM的所有时间步骤被编码和输入;嵌入序列h被进一步解码成标记图像序列x=(x1,…,xT),其通过计算逐像素二进制交叉熵(BCE)损失,鼓励其接近训练界标图像序列y;更详细地说,给定N个长度为T的序列的训练集,条件递归标记产生器的损失为:
其中,⊙和log分别表示元素结果和自然对数操作。
5.基于权利要求书1所述的多模式递归标记生成器(二),其特征在于,设计多模式递归标记生成器,由K个LSTM组成,其输入是由条件LSTM产生的嵌入序列:h1,…,hT,并且输出是一组K个生成的序列简而言之,这是一个一对多的序列映射,必须以无监督的方式学习。
6.基于权利要求书5所述的序列,其特征在于,在形式上,将(h1*,…,hT*)定义为模式平均生成的标记编码序列,作为时间平均的标记嵌入序列集;首先,在生成器平均值(h1*,…,hT*)和由条件LSTM(h1,…,hT)产生的序列之间施加均方误差损失:
使用交叉熵损失来区分从K个生成器获得的序列:
其中,φk表示鉴别器的第k个输出(一个全连接层,后面是一个Softmax层);因此,整体架构是生成对抗网络(GAN)的,即层次型LSTM具有区分不同生成器的鉴别器;在GAN中,生成器和鉴别器相互竞争。
7.基于权利要求书1所述的标记序列到视频的转换(三),其特征在于,该体系结构的最后一个模块负责生成面部视频,即将由两个第一模块生成的面部界标嵌入转换为图像序列;为此,在面部标记图像解码器之后采用类似U-Net的结构;令表示与第n个训练序列相关的输入无表情人脸图像;与已经用于训练先前模块的面部标记图像一起,该数据集包含由表示的人脸图像(从其中注释面部标记);
为了训练转换模块,采用重建损失和对抗损失的组合,以生成局部接近标定好的真实数据和全局真实的图像;表示以面部标记图像和无表情面部图像生成的面部图像,其参数为
8.基于权利要求书7所述的重建损失和对抗损失,其特征在于,重建损失为:
对抗损失根据实数生成图像对:
当生成器固定时,鉴别器被训练为最大化公式(5);当鉴别器固定时,生成器被训练为共同最小化关于的对抗和重建损失:
使用特征映射的像素级的对抗损失;即最粗糙的特征图的每个像素有一个标签,而不是每个图像有一个标签;直观地说,这种损失应该能够单独聚焦在图像的许多部分,而不是将图像看作一个整体。
9.基于权利要求书1所述的训练(四),其特征在于,条件多模式网络体系结构的训练分三个阶段完成;首先,训练标记嵌入VAE,以重建一组标记图像在添加条件LSTM之前,VAE接受了50个时期的训练;第二阶段是对VAE进行微调,并对20个时期的标记图像序列的数据集训练第一层LSTM;第三阶段是添加多模式递归标记生成器;因此,VAE和LSTM可以同时精确调整K个不同的LSTM从头开始学习。
10.基于权利要求书9所述的添加多模式递归标记生成器,其特征在于,这一阶段包括先前定义的重建,推-拉损失函数,并持续10个时期;最后,视频转化模块的标志性序列与其余20个时期的训练分开。
CN201810155144.2A 2018-02-23 2018-02-23 一种基于条件多模式网络的微笑脸部视频生成方法 Withdrawn CN108389239A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810155144.2A CN108389239A (zh) 2018-02-23 2018-02-23 一种基于条件多模式网络的微笑脸部视频生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810155144.2A CN108389239A (zh) 2018-02-23 2018-02-23 一种基于条件多模式网络的微笑脸部视频生成方法

Publications (1)

Publication Number Publication Date
CN108389239A true CN108389239A (zh) 2018-08-10

Family

ID=63068436

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810155144.2A Withdrawn CN108389239A (zh) 2018-02-23 2018-02-23 一种基于条件多模式网络的微笑脸部视频生成方法

Country Status (1)

Country Link
CN (1) CN108389239A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472663A (zh) * 2019-07-15 2019-11-19 西北工业大学 基于内省学习的遥感图像分类方法
CN110620884A (zh) * 2019-09-19 2019-12-27 平安科技(深圳)有限公司 基于表情驱动的虚拟视频合成方法、装置及存储介质
CN110728971A (zh) * 2019-09-25 2020-01-24 云知声智能科技股份有限公司 一种音视频合成方法
CN111401101A (zh) * 2018-12-29 2020-07-10 上海智臻智能网络科技股份有限公司 基于人像的视频生成系统
CN111612496A (zh) * 2019-02-26 2020-09-01 声音猎手公司 广告的人工智能生成
CN113096242A (zh) * 2021-04-29 2021-07-09 平安科技(深圳)有限公司 虚拟主播生成方法、装置、电子设备及存储介质
CN113505829A (zh) * 2021-07-09 2021-10-15 南京大学 一种基于变分自编码器的表情序列自动生成方法
CN113544704A (zh) * 2019-03-26 2021-10-22 日本电信电话株式会社 评价装置、评价方法以及评价程序

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WEI WANG等: "Every Smile is Unique: Landmark-Guided Diverse Smile Generation", 《HTTPS://ARXIV.ORG/ABS/1802.01873V1》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401101A (zh) * 2018-12-29 2020-07-10 上海智臻智能网络科技股份有限公司 基于人像的视频生成系统
CN111612496A (zh) * 2019-02-26 2020-09-01 声音猎手公司 广告的人工智能生成
CN113544704A (zh) * 2019-03-26 2021-10-22 日本电信电话株式会社 评价装置、评价方法以及评价程序
CN110472663A (zh) * 2019-07-15 2019-11-19 西北工业大学 基于内省学习的遥感图像分类方法
CN110620884A (zh) * 2019-09-19 2019-12-27 平安科技(深圳)有限公司 基于表情驱动的虚拟视频合成方法、装置及存储介质
WO2021051605A1 (zh) * 2019-09-19 2021-03-25 平安科技(深圳)有限公司 基于表情驱动的虚拟视频合成方法、装置及存储介质
CN110620884B (zh) * 2019-09-19 2022-04-22 平安科技(深圳)有限公司 基于表情驱动的虚拟视频合成方法、装置及存储介质
CN110728971A (zh) * 2019-09-25 2020-01-24 云知声智能科技股份有限公司 一种音视频合成方法
CN110728971B (zh) * 2019-09-25 2022-02-18 云知声智能科技股份有限公司 一种音视频合成方法
CN113096242A (zh) * 2021-04-29 2021-07-09 平安科技(深圳)有限公司 虚拟主播生成方法、装置、电子设备及存储介质
CN113505829A (zh) * 2021-07-09 2021-10-15 南京大学 一种基于变分自编码器的表情序列自动生成方法
CN113505829B (zh) * 2021-07-09 2024-04-26 南京大学 一种基于变分自编码器的表情序列自动生成方法

Similar Documents

Publication Publication Date Title
CN108389239A (zh) 一种基于条件多模式网络的微笑脸部视频生成方法
Kong et al. Deep sequential context networks for action prediction
Kong et al. Action prediction from videos via memorizing hard-to-predict samples
CN110135567A (zh) 基于多注意力生成对抗网络的图像字幕生成方法
CN110472688A (zh) 图像描述的方法及装置、图像描述模型的训练方法及装置
An et al. Efficient semantic segmentation via self-attention and self-distillation
CN112100404A (zh) 基于结构化上下文信息的知识图谱预训练方法
CN108960126A (zh) 手语翻译的方法、装置、设备及系统
CN109300179A (zh) 动画制作方法、装置、终端和介质
CN110399788A (zh) 图像的au检测方法、装置、电子设备及存储介质
Ji et al. Colorformer: Image colorization via color memory assisted hybrid-attention transformer
CN110097615B (zh) 一种联合风格化和去风格化的艺术字编辑方法和系统
Zhang et al. Cascaded face sketch synthesis under various illuminations
CN110458242A (zh) 一种图像描述生成方法、装置、设备以及可读存储介质
CN102567716A (zh) 一种人脸合成系统及实现方法
CN104852892A (zh) 一种新型物联网网站系统的自主登录方法与识别方法
CN114866807A (zh) 虚拟形象视频生成方法、装置、电子设备及可读存储介质
CN116091978A (zh) 一种基于高级语义信息特征编码的视频描述方法
CN116935170A (zh) 视频处理模型的处理方法、装置、计算机设备和存储介质
CN114419174A (zh) 在线手写文本合成方法、装置和存储介质
CN109840506A (zh) 利用结合关系互动的视频转换器解决视频问答任务的方法
CN110110805A (zh) 一种基于机器学习的动态二维码识别方法和设备
CN113689527A (zh) 一种人脸转换模型的训练方法、人脸图像转换方法
CN116433468A (zh) 用于图像生成的数据处理方法和装置
CN113822117B (zh) 一种数据处理方法、设备以及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20180810