CN116233567A - 一种基于音频情感感知的说话人脸视频生成方法及系统 - Google Patents

一种基于音频情感感知的说话人脸视频生成方法及系统 Download PDF

Info

Publication number
CN116233567A
CN116233567A CN202310490935.1A CN202310490935A CN116233567A CN 116233567 A CN116233567 A CN 116233567A CN 202310490935 A CN202310490935 A CN 202310490935A CN 116233567 A CN116233567 A CN 116233567A
Authority
CN
China
Prior art keywords
emotion
face
audio
representation
mark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310490935.1A
Other languages
English (en)
Other versions
CN116233567B (zh
Inventor
刘萌
王旭峰
宋雪萌
许海振
刘慧�
翟书言
聂礼强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Jianzhu University
Original Assignee
Shandong Jianzhu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Jianzhu University filed Critical Shandong Jianzhu University
Priority to CN202310490935.1A priority Critical patent/CN116233567B/zh
Publication of CN116233567A publication Critical patent/CN116233567A/zh
Application granted granted Critical
Publication of CN116233567B publication Critical patent/CN116233567B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8146Monomedia components thereof involving graphical data, e.g. 3D object, 2D graphics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/055Time compression or expansion for synchronising with other signals, e.g. video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Psychiatry (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Graphics (AREA)
  • Quality & Reliability (AREA)
  • Child & Adolescent Psychology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Social Psychology (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种基于音频情感感知的说话人脸视频生成方法及系统,涉及说话人脸视频生成技术领域。包括步骤:获取音频片段和参考图像,利用有情感的人脸标记生成网络,生成有情感的人脸标记序列;根据有情感的人脸标记序列与参考图像,利用特征自适应视觉变换网络逐帧生成说话人的面部图像,进而生成说话人脸视频,其中,将情感的人脸标记序列转化为情感人脸标记图片;提取标记嵌入表示并重构情感人脸标记图片;根据参考图像生成图像嵌入表示;将图像嵌入表示以及标记嵌入表示通过特征自适应变换与重构的情感人脸标记图片融合,得到说话人的面部图像。本发明克服了现有技术中音唇不同步、情感一致性差、生成图像质量低的缺陷。

Description

一种基于音频情感感知的说话人脸视频生成方法及系统
技术领域
本发明涉及说话人脸视频生成技术领域,尤其涉及一种基于音频情感感知的说话人脸视频生成方法及系统。
背景技术
说话人脸视频生成(Talking Face Generation)任务是通过特定人物的面部图像或者视频和一段音频合成该人物说话的视频。合成的说话人的视频既要保留该人物的视觉外观信息,同时,又要令一系列的面部动作和表情与输入音频保持一致,以确保多模态的一致性。该任务在现实场景下具有很强的应用价值,例如:虚拟主播、电影动画和电话会议等。鉴于此,许多研究员致力于研究如何解决说话人视频生成的问题,并提出了一系列基于深度神经网络的解决方法。虽然这些方法都取得了不小的效益,但是由于目前生成的人脸视频存在情感不同步、口型不准确、图像质量不足等问题,所以针对说话人视频生成任务的研究依旧是十分必要的。
随着计算机视觉和音频处理技术的飞速发展,一些解决说话人视频生成任务的方法被提出,大体上可以分为基于视频的说话人视频生成方法和基于图像的说话人视频生成方法两类。前者是根据输入的音频,从输入视频中提取连续的人脸图像从而生成会说话人的视频。尽管现有的基于视频的说话人视频生成方法在一定程度上解决了训练效率低以及情感忽略等问题。例如,通过仅利用给定视频中如表情、几何形状和姿势等重要视觉特征来构建与身份无关的生成模型,这种方式打破了原有低效的训练方式,原有的训练方式只能用目标人物的视频训练特定人物的说话视频,一旦改变说话人身份,只能重新训练。还可以通过联合考虑输入音频中提取的情感信息和输入视频中提取的身份和头部姿势信息生成带有情感的说话人视频。尽管上述基于视频的说话人视频生成方法取得了良好的性能,但是由于这些方法需要对特定的人进行多个连续的面部图像处理,极大限制了该方法在现实中的应用。
由于基于视频的说话人视频生成方法的限制,基于图像的说话人生成方法愈加流行,它仅需要一张人脸图像和音频剪辑便可以生成一系列与音频同步的说话者的面部图像。虽然基于图像的说话人生成方法极大的推进了说话人视频生成的发展,但是目前依然存在如下局限性:
1)生成人脸的情感不同步。面部表情是生成的说话人脸是否逼真的关键因素。虽然可以从额外的数据,如情感标签和情感视频中挖掘情感信息,但是由于情感与音频之间的域差,导致视听情感的不同步,例如,虽然音频呈现出的是快乐的语调,但是由于这种域鸿沟的存在,模型却生成了一个中性或者悲伤的表情,因此,如何使生成的人脸的情感与给定的音频保持一致成为现有技术的一大难题。
2)生成人脸的口型不准确。虽然现有的方法可以产生相对连贯和自然的嘴部动作,但是由于其很难和音频合轨,即很难令人的嘴部动作变化和音频变化保持一致,所以视频的合成痕迹明显,缺乏真实性,因此如何提高生成人物视频的嘴部动作与音频的适配性成为亟待解决的问题之一。
3)生成人脸的图像质量低。由于现存方法往往无法捕捉到由于面部表情变化所引起的面部的纹理变化,所以生成的图片极可能无法辨别其身份信息,即生成的图片模糊,比如,人胡子或者嘴唇细节不清晰,或者生成人的外貌特征与人真实的外貌特征之间存在差异,如胖瘦差异等,因此如何增强模型的生成能力,让生成的不同图像更好的展示情感差异,保持人的既定身份信息也是至关重要的。
发明内容
针对现有技术存在的不足,本发明的目的是提供一种基于音频情感感知的说话人脸视频生成方法及系统,通过有情感的人脸标记(facial landmark)生成网络生成音唇同步且视听情感一致特性的人脸标记,通过特征自适应的视觉变换网络合成更具真实性且高质量的说话人的视频,克服了现有技术中音唇不同步、情感一致性差、生成图像质量低的缺陷。
为了实现上述目的,本发明是通过如下的技术方案来实现:
本发明第一方面提供了一种基于音频情感感知的说话人脸视频生成方法,包括以下步骤:
获取音频片段和参考图像,利用有情感的人脸标记生成网络,生成有情感的人脸标记序列;
根据有情感的人脸标记序列与参考图像,利用特征自适应视觉变换网络逐帧生成说话人的面部图像;将说话人面部图像逐帧按顺序进行组合,生成说话人脸视频;
其中,利用特征自适应视觉变换网络逐帧生成说话人的面部图像的具体步骤包括:
根据有情感的人脸标记序列提取表情变化信息和唇部运动信息,通过连线的方式将情感的人脸标记序列转化为情感人脸标记图片;
通过挖掘情感人脸标记图片中的空间信息,提取标记嵌入表示,根据标记嵌入表示重构情感人脸标记图片;
根据参考图像中的身份信息和纹理信息,生成图像嵌入表示;
将图像嵌入表示以及标记嵌入表示通过特征自适应变换与重构的情感人脸标记图片融合,得到说话人的面部图像。
进一步的,所述参考图像为说话人视频生成任务所需图像,所述参考图像包含身份信息和纹理信息。
进一步的,利用有情感的人脸标记生成网络,生成有情感的人脸标记序列的具体步骤包括:
对音频片段进行编码得到初始编码,通过挖掘初始编码的信息,得到音频的全局特征表示和音频的序列特征表示,将音频的全局特征表示分离,得到音频内容特征表示和音频情感特征表示;
采用视觉情感表示通过相似度度量的方式对音频情感特征表示进行协调,形成新的音频的全局特征表示;
从参考图像中提取图像的初始人脸标记;
结合初始人脸标记、音频的序列特征表示和新的音频全局特征表示生成有情感的人脸标记序列。
更进一步的,采用视觉情感表示通过相似度度量的方式对音频情感特征表示进行协调,形成新的音频的全局特征表示的具体步骤为:
利用已知的真实人脸标记提取视觉情感特征表示;
利用情感分类预测方法对视觉情感特征表示进行增强,得到增强后的视觉情感特征表示;
采用协调表示的方法,通过相似度度量的计算方式使得音频情感特征表示近似于增强后的视觉情感特征表示。
更进一步的,结合初始人脸标记、音频的序列特征表示和新的音频全局特征表示生成有情感的人脸标记序列的具体步骤为:
提取音频的序列特征表示中的每个音频状态;
基于新的音频全局特征表示,利用注意力模块对每个音频状态进行时序增强,得到时序增强后的特征表示;
利用增强后的特征表示和参考图像的初始人脸标记解码每个音频状态的标记,得到有情感的人脸标记序列。
更进一步的,基于新的音频全局特征表示,利用注意力模块对每个音频状态进行时序增强,得到时序增强后的特征表示的具体步骤为:
获取每个音频状态与音频内容特征表示和音频情感特征表示之间的相关性程度;
根据三个连续音频状态与音频内容特征表示和音频情感特征表示之间的相关性程度计算三个连续音频状态的相关性得分;
根据三个连续音频状态的相关性得分和三个连续音频状态得到时序增强后的特征表示。
进一步的,通过挖掘情感人脸标记图片中的空间信息,提取标记嵌入表示,根据标记嵌入表示重构情感人脸标记图片的具体步骤为:
利用多尺度标记编码器充分挖掘情感人脸标记图片的空间信息,得到初步标记嵌入表示;
对初步标记嵌入表示进行情感的特征表示增强,得到最终的标记嵌入表示;
根据最终的标记嵌入表示重构情感人脸标记图片。
进一步的,将图像嵌入表示以及标记嵌入表示通过特征自适应变换与重构的情感人脸标记图片融合,得到说话人的面部图像的具体步骤为:
对图像嵌入表示和标记嵌入表示进行拼接;
将拼接后的图像嵌入表示和标记嵌入表示进行卷积;
将卷积后的图像嵌入表示和标记嵌入表示采用条件归一化的方式与上采样嵌入表示结合,得到说话人的面部图像。
更进一步的,所述上采样嵌入表示由解码过程中,上一层的解码结果经过上采样操作得到。
本发明第二方面提供了一种基于音频情感感知的说话人脸视频生成系统,包括:
有情感的人脸标记生成网络模块,被配置为获取音频片段和参考图像,利用有情感的人脸标记生成网络,生成有情感的人脸标记序列;
特征自适应视觉变换网络模块,被配置为根据有情感的人脸标记序列与参考图像,利用特征自适应视觉变换网络逐帧生成说话人的面部图像;将说话人面部图像按顺序进行组合,生成说话人脸视频;
其中,利用特征自适应视觉变换网络逐帧生成说话人的面部图像的具体步骤包括:
根据有情感的人脸标记序列提取表情变化信息和唇部运动信息,通过连线的方式将情感的人脸标记序列转化为情感人脸标记图片;
通过挖掘情感人脸标记图片中的空间信息,提取标记嵌入表示,根据标记嵌入表示重构情感人脸标记图片;
根据参考图像中的身份信息和纹理信息,生成图像嵌入表示;
将图像嵌入表示以及标记嵌入表示通过特征自适应变换与重构的情感人脸标记图片融合,得到说话人的面部图像。
以上一个或多个技术方案存在以下有益效果:
本发明公开了一种基于音频情感感知的说话人脸视频生成方法及系统,包括有情感的人脸标记生成网络和特征自适应的视觉变换网络,考虑了多个关键因素,包括视觉和音频的音唇同步、情感一致性和高质量的面部生成。
本发明的有情感的人脸标记生成网络可以生成音唇同步且视听情感一致特性的人脸标记;为了确保视频中的唇部运动与音频保持一致,通过联合考虑声音模态以及视觉模态信息来生成情感人脸标记。
本发明为了确保序列到序列网络生成人脸标记的情感与输入的音频保持一致,从输入的音频中分离出情感信息,并通过协调表示学习来增强被分离出的情感信息的特征表示。
本发明的特征自适应的视觉变换网络可以合成更具真实性且高质量的说话人的视频。为了可以将情感人脸标记信息无缝地嵌入潜在的图像特征中,本发明通过特征的自适应变换,使得生成的情感信息可以被充分地整合到给定的图像中,从而获得高质量的说话人的面部图像。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例一基于音频情感感知的说话人脸视频生成方法中有情感的人脸标记生成网络部分流程图;
图2为本发明实施例一基于音频情感感知的说话人脸视频生成方法中特征自适应的视觉变换网络部分流程图;
图3为本发明实施例一中有情感的人脸标记序列生成过程流程图;
图4为本发明实施例一中特征自适应变换过程示意图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
应当说明的是,本申请实施例中,涉及到音频和图像等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合;
实施例一:
本发明实施例一提供了一种基于音频情感感知的说话人脸视频生成方法,如图1所示,利用有情感的人脸标记生成网络得到有情感的人脸标记序列特征,其中,有情感的人脸标记生成网包括视觉情感提取器和序列对序列人脸标记生成器,视觉情感提取器通过真实图片的人脸标记和提取视觉情感特征表示,采用情感分类器对视觉情感特征表示进行增强。序列对序列人脸标记生成器中通过音频编码器对音频编码得到正交的音频内容特征表示和音频情感特征表示,并利用视觉情感特征表示对音频情感特征表示进行协调,音频内容特征表示和音频情感特征表示通过人脸标记编码器结合参考图片的初始人脸标记编码生成有情感的人脸标记序列进而得到情感人脸标记图片。如图2所示,将情感人脸标记图片和参考图片通过特征自适应的视觉变换网络生成情感人脸标记图片,并经过自适应变换得到最终的情感人脸标记图片即说话人的面部图像。
具体包括以下步骤:
步骤1,获取音频片段和参考图像,利用有情感的人脸标记生成网络生成有情感的人脸标记序列。
步骤1.1,采用序列对序列人脸标记生成器生成有情感的人脸标记。
步骤1.1.1,对音频片段进行编码得到初始编码。
在一种具体的实施方式中,先经过特征提取:音频初始编码过程为将给定的一个音频片段输入进Mel-spectrogram中,通过拼接其Mel谱的一阶和二阶特征表示构建音频片段的初始编码
Figure SMS_1
,其中,/>
Figure SMS_2
表示音频的输入长度。再将提取的特征经过音频编码器/>
Figure SMS_3
特征进行编码。
步骤1.2,通过挖掘初始编码的信息,得到音频的全局特征表示和音频的序列特征表示,将音频的全局特征表示分离,得到音频内容特征表示和音频情感特征表示。
步骤1.2.1,将音频片段的初始编码
Figure SMS_4
输入到单层门控循环单元(GRU)中,获得一个具备上下文感知力的音频序列特征表示/>
Figure SMS_5
和一个音频全局特征表示/>
Figure SMS_6
步骤1.2.2,由于音频全局特征表示
Figure SMS_8
中,不仅包含语音信息,即音频表达的内容,还蕴含着人物的情感信息,所以,音频全局特征表示/>
Figure SMS_11
可以同时对唇部运动变化的生成和情感信息的学习有利。基于此,通过以/>
Figure SMS_13
为激活函数的两个平行的线性层,将音频全局特征/>
Figure SMS_9
分离为音频内容特征表示/>
Figure SMS_12
和音频情感特征表示/>
Figure SMS_14
。为了理清音频内容特征表示/>
Figure SMS_15
和音频情感特征表示/>
Figure SMS_7
,故令二者保持正交,即/>
Figure SMS_10
步骤1.3, 采用视觉情感提取器
Figure SMS_16
生成视觉情感表示,采用视觉情感表示通过相似度度量的方式对音频情感特征表示进行协调,形成新的音频的全局特征表示。
步骤1.3.1,利用已知的真实人脸标记提取视觉情感特征表示。
在一种具体的实施方式中,构建标记编码器,标记编码器由GRU组成,将真实人脸标记
Figure SMS_17
作为它的输入,从中提取视觉情感特征表示/>
Figure SMS_18
步骤1.3.2,利用情感分类预测方法对视觉情感特征表示进行增强,得到增强后的视觉情感特征表示。
在一种具体的实施方式中,分类器学习过程中所采用的算法会强化那些对于分类成当前类别有用的特征,并削弱那些对分类类别没有用的特征。因此将视觉情感特征表示
Figure SMS_19
输入到情感分类器中去预测情感类别,利用这种方式以达到增强视觉情感特征表示/>
Figure SMS_20
的表达能力的效果。情感分类器是由两层线性层与/>
Figure SMS_21
的/>
Figure SMS_22
组成,其中,第一层线性层的激活函数为/>
Figure SMS_23
在一种具体的实施方式中,为了训练视觉情感提取器
Figure SMS_24
中的情感分类器,引入了情感分类损失/>
Figure SMS_25
Figure SMS_26
(1)
其中,
Figure SMS_28
为情感分类损失,/>
Figure SMS_31
为情感类别的数量,/>
Figure SMS_33
为情感分类器对/>
Figure SMS_29
情感的预测概率,/>
Figure SMS_30
为第k种情感信息的类别向量。/>
Figure SMS_34
作为情感分类的类别标签,如果该输入样本存在第/>
Figure SMS_35
种情感信息,则/>
Figure SMS_27
,否则,/>
Figure SMS_32
步骤1.3.3,采用协调表示的方法,通过相似度度量的计算方式使得音频情感特征表示近似于增强后的视觉情感特征表示。
在一种具体的实施方式中,为了利用从视觉情感提取器
Figure SMS_36
中获得的视觉情感特征表示/>
Figure SMS_37
来监督音频情感特征表示/>
Figure SMS_38
的生成,采用协调表示的方法,通过相似度度量的计算方式,使得音频情感特征表示/>
Figure SMS_39
近似于视觉情感特征表示/>
Figure SMS_40
,公式如下所示:
Figure SMS_41
(2)
其中,
Figure SMS_42
为相似度度量损失,/>
Figure SMS_43
为音频情感特征表示,/>
Figure SMS_44
为视觉情感特征表示。
步骤1.4,从参考图像中提取图像的初始人脸标记。
在一种具体的实施方式中,将给定的一个参考图像
Figure SMS_45
输入进人脸标记提取器Dlib中,提取它的初始标记编码/>
Figure SMS_46
即为初始人脸标记。其中,参考图像为说话人视频生成任务所需图像,所述参考图像包含身份信息和纹理信息,/>
Figure SMS_47
在全文中均为数字的阈表示符号。
步骤1.5结合初始人脸标记、音频的序列特征表示和新的音频全局特征表示生成有情感的人脸标记序列。具体的,用标记解码器
Figure SMS_48
合成相应的音唇同步的有情感的人脸标记序列/>
Figure SMS_49
,其定义如下:
Figure SMS_50
(3)
其中,
Figure SMS_51
为有情感的人脸标记序列,/>
Figure SMS_52
为标记解码器,/>
Figure SMS_53
为音频情感特征表示,
Figure SMS_54
为初始标记编码,/>
Figure SMS_55
为音频内容特征表示,/>
Figure SMS_56
为音频序列特征表示。为了令口型的变化流畅且自然,于是在标记解码器/>
Figure SMS_57
中设计了一个注意力模块。该模块可以联合考虑每个音频状态的上文信息和下文信息。
提取音频的序列特征表示中的每个音频状态。
步骤1.5.2,基于新的音频全局特征表示,利用注意力模块对每个音频状态进行时序增强,得到时序增强后的特征表示。
步骤1.5.2.1,获取每个音频状态与音频内容特征表示和音频情感特征表示之间的相关性程度
Figure SMS_58
步骤1.5.2.2,根据三个连续音频状态与音频内容特征表示和音频情感特征表示之间的相关性程度计算三个连续音频状态的相关性得分
Figure SMS_59
步骤1.5.2.3,根据三个连续音频状态的相关性得分和三个连续音频状态得到时序增强后的特征表示
Figure SMS_60
在一种具体的实施方式中,如图3所示,注意力模块的表述如下:
Figure SMS_61
(4)
其中,
Figure SMS_78
表示拼接。/>
Figure SMS_63
表示的是第/>
Figure SMS_73
个音频状态/>
Figure SMS_68
与音频内容特征表示/>
Figure SMS_70
和音频情感特征表示/>
Figure SMS_69
之间的相关性程度。/>
Figure SMS_77
是以/>
Figure SMS_64
为激活函数的两层线性层组成。/>
Figure SMS_74
Figure SMS_62
分别为/>
Figure SMS_75
的前一个音频状态/>
Figure SMS_67
和后一个音频状态/>
Figure SMS_76
与音频内容特征表示/>
Figure SMS_65
和音频情感特征表示/>
Figure SMS_71
之间的关联程度,它们的计算方式与/>
Figure SMS_66
相同。/>
Figure SMS_72
为三个连续音频状态的相关性得分。/>
Figure SMS_79
代表的是被时序增强的第/>
Figure SMS_80
个音频状态的特征表示。
步骤1.5.3,利用增强后的特征表示和参考图像的初始人脸标记解码每个音频状态的标记,得到有情感的人脸标记序列。
在一种具体的实施方式中,以第
Figure SMS_81
个音频状态为例,利用经过时序增强的第/>
Figure SMS_82
个音频状态的特征表示/>
Figure SMS_83
和参考图像/>
Figure SMS_84
的初始标记/>
Figure SMS_85
解码第/>
Figure SMS_86
个音频状态的标记,其表述形式如下:
Figure SMS_87
(5)
其中,
Figure SMS_88
是GRU网络。/>
Figure SMS_89
表示结合了时序音频信息和初始标记信息的中层潜在特征。潜在特征的初始状态/>
Figure SMS_90
。/>
Figure SMS_91
是以/>
Figure SMS_92
为激活函数的线性层。/>
Figure SMS_93
为第/>
Figure SMS_94
个音频状态所生成的情感标记,所有状态的情感标记集合即为有情感的人脸标记序列。
步骤1.6,对序列对序列人脸标记生成器引入重构损失
Figure SMS_95
,目的是为了令序列到序列人脸标记生成器模块生成的人脸标记更精准。
在一种具体的实施方式中,通过计算真实标记序列
Figure SMS_96
和序列对序列人脸标记生成器生成的有情感的人脸标记序列/>
Figure SMS_97
之间的欧式范数,使得生成的有情感的人脸标记序列/>
Figure SMS_98
不断趋近真实人脸标记序列/>
Figure SMS_99
更进一步的,可得到有情感的人脸标记生成网络的损失函数为:
Figure SMS_100
(6)
其中,
Figure SMS_101
为重构损失,/>
Figure SMS_102
为相似度度量损失,/>
Figure SMS_103
为情感分类损失,/>
Figure SMS_104
和/>
Figure SMS_105
为不同损失的损失系数,用于平衡不同项之间的相对重要性。
步骤2,根据有情感的人脸标记序列与参考图像,利用特征自适应视觉变换网络逐帧生成说话人的面部图像;将说话人面部图像按顺序进行组合,生成说话人脸视频。
步骤2.1,根据有情感的人脸标记序列提取表情变化信息和唇部运动信息,通过连线的方式将情感的人脸标记序列转化为情感人脸标记图片。
在一种具体的实施方式中,用线连接第
Figure SMS_106
个音频状态所生成的情感标记/>
Figure SMS_107
的标记坐标,并用不同的颜色标记面部的五个器官,本实施例中为眉毛、眼睛、鼻子、嘴巴、下颌,便得到了大小为/>
Figure SMS_108
的第/>
Figure SMS_109
个人脸标记图片/>
Figure SMS_110
,由于音频状态与人脸标记图片个数对应,为了体现一致性,本实施例中音频对应的图片编号和音频状态编号均用t表示。
步骤2.2,通过挖掘情感人脸标记图片中的空间信息,提取标记嵌入表示,根据标记嵌入表示重构情感人脸标记图片。
步骤2.2.1,利用多尺度标记编码器充分挖掘情感人脸标记图片
Figure SMS_111
的空间信息,得到初步标记嵌入表示。其中,多尺度标记编码器是由/>
Figure SMS_112
层的卷积神经网络构成。
步骤2.2.2,对初步标记嵌入表示进行情感的特征表示增强,得到最终的标记嵌入表示。
在一种具体的实施方式中,为了增强特征表示的表达能力,在编码层和解码层之间添加跳接层,利用该结构将初步标记嵌入表示解码为情感标记,即为最终的标记嵌入表示
Figure SMS_113
。其中,标记解码器是由与标记编码器对称的/>
Figure SMS_114
个反卷积层组成。
步骤2.2.3,根据最终的标记嵌入表示重构情感人脸标记图片。在经过步骤2.2.1和步骤2.2.2后,原第
Figure SMS_115
个人脸标记图片/>
Figure SMS_116
被重构为新的人脸标记图片/>
Figure SMS_117
步骤2.3,根据参考图像中的身份信息和纹理信息,生成图像嵌入表示。
在一种具体的实施方式中,通过与标记编码层类似的结构,即采用了
Figure SMS_118
层图像编码器,从参考图像/>
Figure SMS_119
中提取当前所需任务的身份信息以及纹理信息,而生成的第/>
Figure SMS_120
个人脸标记图片对应的图像嵌入表示,记为/>
Figure SMS_121
步骤2.4,将图像嵌入表示以及标记嵌入表示通过特征自适应变换与重构的情感人脸标记图片融合,得到说话人的面部图像。其中,特征自适应变换过程仅存在于图像解码器的前
Figure SMS_122
层中,它的输入为图片嵌入表示/>
Figure SMS_123
和标记嵌入表示/>
Figure SMS_124
步骤2.4.1,对图像嵌入表示
Figure SMS_125
和标记嵌入表示/>
Figure SMS_126
进行拼接。
如图4所示,步骤2.4.2,将拼接后的图像嵌入表示和标记嵌入表示进行卷积。
在一种具体的实施方式中,使用两个
Figure SMS_127
的卷积层令图像嵌入表示和标记嵌入表示自适应的融合。
步骤2.4.3,将卷积后的图像嵌入表示和标记嵌入表示采用条件归一化的方式与上采样嵌入表示
Figure SMS_128
结合,得到说话人的面部图像。
在一种具体的实施方式中,最后采用条件归一化的方式与上采样嵌入表示
Figure SMS_129
相结合的公式为:
Figure SMS_130
(7)
其中,
Figure SMS_132
是对于第/>
Figure SMS_136
个音频状态在第/>
Figure SMS_139
个解码层输出,/>
Figure SMS_134
表示位于第/>
Figure SMS_141
个通道的值,/>
Figure SMS_137
是上采样嵌入表示/>
Figure SMS_145
的坐标,/>
Figure SMS_143
和/>
Figure SMS_147
分别代表了/>
Figure SMS_131
的第/>
Figure SMS_142
个通道的平均值和标准差。/>
Figure SMS_133
和/>
Figure SMS_140
是一层卷积层。/>
Figure SMS_138
和/>
Figure SMS_144
分别代表了归一化模块的尺度值和位移值,它们的计算都依赖于图片和标记的嵌入表示,/>
Figure SMS_135
为图片嵌入表示,/>
Figure SMS_146
为标记嵌入表示。因此,这个模块可以灵活的将图片的嵌入表示、标记的嵌入表示、前期解码层的信息集成到之后的解码层中。
在一种具体的实施方式中,所述上采样嵌入表示由解码过程中,上一层的解码结果经过上采样操作得到。
对于第
Figure SMS_148
层图像解码层的输出/>
Figure SMS_149
,将其经过反卷积,批归一化以及
Figure SMS_150
激活函数的上采样操作后,获得上采样嵌入表示/>
Figure SMS_151
。其中,图像解码器是一个具有跳接操作的/>
Figure SMS_152
层上采样模块。
本发明设计了一个序列到序列具有情感的人脸标记生成器,可以有效地同步给定音频的情感和内容信息。是首次将情感标记生成器用于说话人生成任务的方法,它可以被插入到任一个现有的以人脸标记驱动说话人生成方法中,为这些方法生成的人脸赋予情感。本发明还通过特征的自适应变换,使得生成的情感信息可以被充分地整合到给定的图像中,从而获得高质量的说话人的面部图像。
步骤2.5,为了对特征自适应视觉变换网络进行优化,引入损失函数:
Figure SMS_153
(8)
其中,
Figure SMS_154
为特征自适应视觉变换网络的损失,/>
Figure SMS_155
为标记嵌入损失,/>
Figure SMS_156
为对抗损失,/>
Figure SMS_157
为感知损失,/>
Figure SMS_158
、/>
Figure SMS_159
为不同损失函数的损失系数。
步骤2.5.1,为了最小化预测图片
Figure SMS_160
与真实图片/>
Figure SMS_161
之间的像素差异,为标记嵌入模块引入了标记嵌入损失/>
Figure SMS_162
,即/>
Figure SMS_163
范数。此目标函数使用的是真实图片/>
Figure SMS_164
作为监督信息,而不是使用未经过标记嵌入模块操作的标记图片/>
Figure SMS_165
作为监督信息,其原因在于,在训练阶段时,可轻微修正/>
Figure SMS_166
的表示。
步骤2.5.2,为了提升图片的质量,为视觉变换网络引入了对抗损失
Figure SMS_167
。/>
Figure SMS_168
和/>
Figure SMS_169
是两个不同的条件鉴别器,可以利用它们提高视觉变换网络的生成能力。其中,/>
Figure SMS_170
被训练用于区分全尺度合成图像和真实图像之间的差异,/>
Figure SMS_171
被训练用于区分在半尺度上合成图像和真实图像之间的差异。其定义如下所示:
Figure SMS_172
(9)
其中,
Figure SMS_174
为对抗损失,/>
Figure SMS_177
为生成判别损失,/>
Figure SMS_180
为基于辨别器的特征映射损失,/>
Figure SMS_175
表示特征自适应视觉变换网络。/>
Figure SMS_178
为鉴别器,n为鉴别器标号,对于鉴别器/>
Figure SMS_181
和/>
Figure SMS_182
,二者都是由三个卷积层组成,其中,每个卷积层都有一个批归一化层和激活函数/>
Figure SMS_173
。/>
Figure SMS_176
的输入是通过合成图像和真实图像在窗口大小为/>
Figure SMS_179
的平均池化方式获得的。
生成判别损失
Figure SMS_183
的定义如下:
Figure SMS_184
(10)
其中,
Figure SMS_185
表示数学期望,/>
Figure SMS_186
表示经过第一阶段生成的第/>
Figure SMS_187
个人脸标记图片,/>
Figure SMS_188
是第/>
Figure SMS_189
个人脸标记图片对应的真实的图片,/>
Figure SMS_190
为鉴别器,n为鉴别器标号,/>
Figure SMS_191
是参考图像。
Figure SMS_192
是基于辨别器的特征映射损失,定义如下:
Figure SMS_193
(11)
其中,
Figure SMS_195
表示数学期望,/>
Figure SMS_199
表示经过第一阶段生成的第/>
Figure SMS_202
个人脸标记图片/>
Figure SMS_196
是第/>
Figure SMS_198
个人脸标记图片对应的真实的图片,/>
Figure SMS_201
是鉴别器/>
Figure SMS_204
的第/>
Figure SMS_194
层,/>
Figure SMS_197
表示鉴别器的总层数,/>
Figure SMS_200
表示第/>
Figure SMS_203
层的元素总数,T表示人脸标记图片总个数。
步骤2.5.3,感知损失
Figure SMS_205
被用于在特征级别上约束网络,从而帮助模型生成高质量的图片,其定义如下:
Figure SMS_206
(12)/>
其中,
Figure SMS_208
表示数学期望,/>
Figure SMS_213
表示经过第一阶段生成的第/>
Figure SMS_214
个人脸标记图片/>
Figure SMS_209
是第/>
Figure SMS_210
个人脸标记图片对应的真实的图片,/>
Figure SMS_211
表示第VGG网络的第j层,Z为总层数,/>
Figure SMS_212
代表第/>
Figure SMS_207
层的元素总数,T表示人脸标记图片总个数。
实施例二:
本发明实施例二提供了一种基于音频情感感知的说话人脸视频生成系统,包括:
有情感的人脸标记生成网络模块,被配置为获取音频片段和参考图像,利用有情感的人脸标记生成网络,生成有情感的人脸标记序列;
特征自适应视觉变换网络模块,被配置为根据有情感的人脸标记序列与参考图像,利用特征自适应视觉变换网络逐帧生成说话人的面部图像;将说话人面部图像按顺序进行组合,生成说话人脸视频;
其中,利用特征自适应视觉变换网络逐帧生成说话人的面部图像的具体步骤包括:
根据有情感的人脸标记序列提取表情变化信息和唇部运动信息,通过连线的方式将情感的人脸标记序列转化为情感人脸标记图片;
通过挖掘情感人脸标记图片中的空间信息,提取标记嵌入表示,根据标记嵌入表示重构情感人脸标记图片;
根据参考图像中的身份信息和纹理信息,生成图像嵌入表示;
将图像嵌入表示以及标记嵌入表示通过特征自适应变换与重构的情感人脸标记图片融合,得到说话人的面部图像。
以上实施例二中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.一种基于音频情感感知的说话人脸视频生成方法,其特征在于,包括:包括以下步骤:
获取音频片段和参考图像,利用有情感的人脸标记生成网络,生成有情感的人脸标记序列;
根据有情感的人脸标记序列与参考图像,利用特征自适应视觉变换网络逐帧生成说话人的面部图像;将说话人面部图像按顺序进行组合,生成说话人脸视频;
其中,利用特征自适应视觉变换网络逐帧生成说话人的面部图像的具体步骤包括:
根据有情感的人脸标记序列提取表情变化信息和唇部运动信息,通过连线的方式将情感的人脸标记序列转化为情感人脸标记图片;
通过挖掘情感人脸标记图片中的空间信息,提取标记嵌入表示,根据标记嵌入表示重构情感人脸标记图片;
根据参考图像中的身份信息和纹理信息,生成图像嵌入表示;
将图像嵌入表示以及标记嵌入表示通过特征自适应变换与重构的情感人脸标记图片融合,得到说话人的面部图像。
2.如权利要求1所述的基于音频情感感知的说话人脸视频生成方法,其特征在于,所述参考图像为说话人视频生成任务所需图像,所述参考图像包含身份信息和纹理信息。
3.如权利要求1所述的基于音频情感感知的说话人脸视频生成方法,其特征在于,利用有情感的人脸标记生成网络,生成有情感的人脸标记序列的具体步骤包括:
对音频片段进行编码得到初始编码,通过挖掘初始编码的信息,得到音频的全局特征表示和音频的序列特征表示,将音频的全局特征表示分离,得到音频内容特征表示和音频情感特征表示;
采用视觉情感表示通过相似度度量的方式对音频情感特征表示进行协调,形成新的音频的全局特征表示;
从参考图像中提取图像的初始人脸标记;
结合初始人脸标记、音频的序列特征表示和新的音频全局特征表示生成有情感的人脸标记序列。
4.如权利要求3所述的基于音频情感感知的说话人脸视频生成方法,其特征在于,采用视觉情感表示通过相似度度量的方式对音频情感特征表示进行协调,形成新的音频的全局特征表示的具体步骤为:
利用已知的真实人脸标记提取视觉情感特征表示;
利用情感分类预测方法对视觉情感特征表示进行增强,得到增强后的视觉情感特征表示;
采用协调表示的方法,通过相似度度量的计算方式使得音频情感特征表示近似于增强后的视觉情感特征表示。
5.如权利要求4所述的基于音频情感感知的说话人脸视频生成方法,其特征在于,结合初始人脸标记、音频的序列特征表示和新的音频全局特征表示生成有情感的人脸标记序列的具体步骤为:
提取音频的序列特征表示中的每个音频状态;
基于新的音频全局特征表示,利用注意力模块对每个音频状态进行时序增强,得到时序增强后的特征表示;
利用增强后的特征表示和参考图像的初始人脸标记解码每个音频状态的标记,得到有情感的人脸标记序列。
6.如权利要求5所述的基于音频情感感知的说话人脸视频生成方法,其特征在于,基于新的音频全局特征表示,利用注意力模块对每个音频状态进行时序增强,得到时序增强后的特征表示的具体步骤为:
获取每个音频状态与音频内容特征表示和音频情感特征表示之间的相关性程度;
根据三个连续音频状态与音频内容特征表示和音频情感特征表示之间的相关性程度计算三个连续音频状态的相关性得分;
根据三个连续音频状态的相关性得分和三个连续音频状态得到时序增强后的特征表示。
7.如权利要求1所述的基于音频情感感知的说话人脸视频生成方法,其特征在于,通过挖掘情感人脸标记图片中的空间信息,提取标记嵌入表示,根据标记嵌入表示重构情感人脸标记图片的具体步骤为:
利用多尺度标记编码器充分挖掘情感人脸标记图片的空间信息,得到初步标记嵌入表示;
对初步标记嵌入表示进行情感的特征表示增强,得到最终的标记嵌入表示;
根据最终的标记嵌入表示重构情感人脸标记图片。
8.如权利要求7所述的基于音频情感感知的说话人脸视频生成方法,其特征在于,将图像嵌入表示以及标记嵌入表示通过特征自适应变换与重构的情感人脸标记图片融合,得到说话人的面部图像的具体步骤为:
对图像嵌入表示和标记嵌入表示进行拼接;
将拼接后的图像嵌入表示和标记嵌入表示进行卷积;
将卷积后的图像嵌入表示和标记嵌入表示采用条件归一化的方式与上采样嵌入表示结合,得到说话人的面部图像。
9.如权利要求8所述的基于音频情感感知的说话人脸视频生成方法,其特征在于,所述上采样嵌入表示由解码过程中,上一层的解码结果经过上采样操作得到。
10.一种基于音频情感感知的说话人脸视频生成系统,其特征在于,包括:
有情感的人脸标记生成网络模块,被配置为获取音频片段和参考图像,利用有情感的人脸标记生成网络,生成有情感的人脸标记序列;
特征自适应视觉变换网络模块,被配置为根据有情感的人脸标记序列与参考图像,利用特征自适应视觉变换网络逐帧生成说话人的面部图像;将说话人面部图像按顺序进行组合,生成说话人脸视频;
其中,利用特征自适应视觉变换网络逐帧生成说话人的面部图像的具体步骤包括:
根据有情感的人脸标记序列提取表情变化信息和唇部运动信息,通过连线的方式将情感的人脸标记序列转化为情感人脸标记图片;
通过挖掘情感人脸标记图片中的空间信息,提取标记嵌入表示,根据标记嵌入表示重构情感人脸标记图片;
根据参考图像中的身份信息和纹理信息,生成图像嵌入表示;
将图像嵌入表示以及标记嵌入表示通过特征自适应变换与重构的情感人脸标记图片融合,得到说话人的面部图像。
CN202310490935.1A 2023-05-05 2023-05-05 一种基于音频情感感知的说话人脸视频生成方法及系统 Active CN116233567B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310490935.1A CN116233567B (zh) 2023-05-05 2023-05-05 一种基于音频情感感知的说话人脸视频生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310490935.1A CN116233567B (zh) 2023-05-05 2023-05-05 一种基于音频情感感知的说话人脸视频生成方法及系统

Publications (2)

Publication Number Publication Date
CN116233567A true CN116233567A (zh) 2023-06-06
CN116233567B CN116233567B (zh) 2023-07-25

Family

ID=86569758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310490935.1A Active CN116233567B (zh) 2023-05-05 2023-05-05 一种基于音频情感感知的说话人脸视频生成方法及系统

Country Status (1)

Country Link
CN (1) CN116233567B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117153195A (zh) * 2023-10-31 2023-12-01 中国传媒大学 基于自适应区域遮挡的说话人脸视频生成方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105976809A (zh) * 2016-05-25 2016-09-28 中国地质大学(武汉) 基于语音和面部表情的双模态情感融合的识别方法及系统
WO2022103877A1 (en) * 2020-11-13 2022-05-19 Innopeak Technology, Inc. Realistic audio driven 3d avatar generation
CN115116109A (zh) * 2022-04-27 2022-09-27 平安科技(深圳)有限公司 虚拟人物说话视频的合成方法、装置、设备及存储介质
CN115588224A (zh) * 2022-10-14 2023-01-10 中南民族大学 一种人脸关键点的预测方法、虚拟数字人生成方法及装置
CN115761075A (zh) * 2022-11-21 2023-03-07 百果园技术(新加坡)有限公司 脸部图像生成方法及其装置、设备、介质、产品
CN115908659A (zh) * 2022-11-25 2023-04-04 西安交通大学 一种基于生成对抗网络的说话人脸合成方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105976809A (zh) * 2016-05-25 2016-09-28 中国地质大学(武汉) 基于语音和面部表情的双模态情感融合的识别方法及系统
WO2022103877A1 (en) * 2020-11-13 2022-05-19 Innopeak Technology, Inc. Realistic audio driven 3d avatar generation
CN115116109A (zh) * 2022-04-27 2022-09-27 平安科技(深圳)有限公司 虚拟人物说话视频的合成方法、装置、设备及存储介质
CN115588224A (zh) * 2022-10-14 2023-01-10 中南民族大学 一种人脸关键点的预测方法、虚拟数字人生成方法及装置
CN115761075A (zh) * 2022-11-21 2023-03-07 百果园技术(新加坡)有限公司 脸部图像生成方法及其装置、设备、介质、产品
CN115908659A (zh) * 2022-11-25 2023-04-04 西安交通大学 一种基于生成对抗网络的说话人脸合成方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MITTAL G: "Animating face using disentangled audio representations", 《PROCEEDINGS OF THE IEEE/CVF WINTER CONFERENCE ON APPLICATIONS OF COMPUTER VISION》 *
王文涛: "基于语音驱动说话人脸视频生成的研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117153195A (zh) * 2023-10-31 2023-12-01 中国传媒大学 基于自适应区域遮挡的说话人脸视频生成方法及系统
CN117153195B (zh) * 2023-10-31 2024-03-12 中国传媒大学 基于自适应区域遮挡的说话人脸视频生成方法及系统

Also Published As

Publication number Publication date
CN116233567B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
Richard et al. Meshtalk: 3d face animation from speech using cross-modality disentanglement
Zhang et al. Facial: Synthesizing dynamic talking face with implicit attribute learning
Wang et al. One-shot talking face generation from single-speaker audio-visual correlation learning
Yi et al. Audio-driven talking face video generation with learning-based personalized head pose
Aldausari et al. Video generative adversarial networks: a review
CN113194348B (zh) 一种虚拟人讲课视频生成方法、系统、装置及存储介质
Chuang et al. Mood swings: expressive speech animation
CN113192161A (zh) 一种虚拟人形象视频生成方法、系统、装置及存储介质
Ma et al. Styletalk: One-shot talking head generation with controllable speaking styles
CN108962216A (zh) 一种说话视频的处理方法及装置、设备和存储介质
Zhou et al. An image-based visual speech animation system
CN116233567B (zh) 一种基于音频情感感知的说话人脸视频生成方法及系统
US11581020B1 (en) Facial synchronization utilizing deferred neural rendering
Gafni et al. Wish you were here: Context-aware human generation
Rebol et al. Passing a non-verbal turing test: Evaluating gesture animations generated from speech
Chatziagapi et al. LipNeRF: What is the right feature space to lip-sync a NeRF?
Filntisis et al. Visual speech-aware perceptual 3d facial expression reconstruction from videos
CN117409121A (zh) 基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法、系统、设备及介质
Liu et al. Talking face generation via facial anatomy
CN111275778B (zh) 人脸简笔画生成方法及装置
Wang et al. Talking faces: Audio-to-video face generation
CN117237521A (zh) 语音驱动人脸生成模型构建方法、目标人说话视频生成方法
Gowda et al. From pixels to portraits: A comprehensive survey of talking head generation techniques and applications
Chen et al. Expressive Speech-driven Facial Animation with controllable emotions
CN115578298A (zh) 一种基于内容感知的深度肖像视频合成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant