CN116233567B - 一种基于音频情感感知的说话人脸视频生成方法及系统 - Google Patents
一种基于音频情感感知的说话人脸视频生成方法及系统 Download PDFInfo
- Publication number
- CN116233567B CN116233567B CN202310490935.1A CN202310490935A CN116233567B CN 116233567 B CN116233567 B CN 116233567B CN 202310490935 A CN202310490935 A CN 202310490935A CN 116233567 B CN116233567 B CN 116233567B
- Authority
- CN
- China
- Prior art keywords
- emotion
- audio
- face
- representation
- mark
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 227
- 238000000034 method Methods 0.000 title claims abstract description 56
- 230000008447 perception Effects 0.000 title claims abstract description 22
- 230000000007 visual effect Effects 0.000 claims abstract description 61
- 230000009466 transformation Effects 0.000 claims abstract description 39
- 239000012634 fragment Substances 0.000 claims abstract description 11
- 239000003550 marker Substances 0.000 claims description 28
- 230000002996 emotional effect Effects 0.000 claims description 15
- 230000001815 facial effect Effects 0.000 claims description 15
- 238000005065 mining Methods 0.000 claims description 15
- 230000014509 gene expression Effects 0.000 claims description 12
- 230000008859 change Effects 0.000 claims description 11
- 238000005259 measurement Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000011524 similarity measure Methods 0.000 claims description 2
- 230000007547 defect Effects 0.000 abstract description 3
- 239000010410 layer Substances 0.000 description 32
- 230000006870 function Effects 0.000 description 10
- 230000004913 activation Effects 0.000 description 5
- 230000001360 synchronised effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 210000000887 face Anatomy 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 229920001184 polypeptide Polymers 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 102000004196 processed proteins & peptides Human genes 0.000 description 1
- 108090000765 processed proteins & peptides Proteins 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000004804 winding Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8146—Monomedia components thereof involving graphical data, e.g. 3D object, 2D graphics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/176—Dynamic expression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/055—Time compression or expansion for synchronising with other signals, e.g. video signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Psychiatry (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computer Graphics (AREA)
- Quality & Reliability (AREA)
- Child & Adolescent Psychology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Social Psychology (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Processing Or Creating Images (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种基于音频情感感知的说话人脸视频生成方法及系统,涉及说话人脸视频生成技术领域。包括步骤:获取音频片段和参考图像,利用有情感的人脸标记生成网络,生成有情感的人脸标记序列;根据有情感的人脸标记序列与参考图像,利用特征自适应视觉变换网络逐帧生成说话人的面部图像,进而生成说话人脸视频,其中,将情感的人脸标记序列转化为情感人脸标记图片;提取标记嵌入表示并重构情感人脸标记图片;根据参考图像生成图像嵌入表示;将图像嵌入表示以及标记嵌入表示通过特征自适应变换与重构的情感人脸标记图片融合,得到说话人的面部图像。本发明克服了现有技术中音唇不同步、情感一致性差、生成图像质量低的缺陷。
Description
技术领域
本发明涉及说话人脸视频生成技术领域,尤其涉及一种基于音频情感感知的说话人脸视频生成方法及系统。
背景技术
说话人脸视频生成(Talking Face Generation)任务是通过特定人物的面部图像或者视频和一段音频合成该人物说话的视频。合成的说话人的视频既要保留该人物的视觉外观信息,同时,又要令一系列的面部动作和表情与输入音频保持一致,以确保多模态的一致性。该任务在现实场景下具有很强的应用价值,例如:虚拟主播、电影动画和电话会议等。鉴于此,许多研究员致力于研究如何解决说话人视频生成的问题,并提出了一系列基于深度神经网络的解决方法。虽然这些方法都取得了不小的效益,但是由于目前生成的人脸视频存在情感不同步、口型不准确、图像质量不足等问题,所以针对说话人视频生成任务的研究依旧是十分必要的。
随着计算机视觉和音频处理技术的飞速发展,一些解决说话人视频生成任务的方法被提出,大体上可以分为基于视频的说话人视频生成方法和基于图像的说话人视频生成方法两类。前者是根据输入的音频,从输入视频中提取连续的人脸图像从而生成会说话人的视频。尽管现有的基于视频的说话人视频生成方法在一定程度上解决了训练效率低以及情感忽略等问题。例如,通过仅利用给定视频中如表情、几何形状和姿势等重要视觉特征来构建与身份无关的生成模型,这种方式打破了原有低效的训练方式,原有的训练方式只能用目标人物的视频训练特定人物的说话视频,一旦改变说话人身份,只能重新训练。还可以通过联合考虑输入音频中提取的情感信息和输入视频中提取的身份和头部姿势信息生成带有情感的说话人视频。尽管上述基于视频的说话人视频生成方法取得了良好的性能,但是由于这些方法需要对特定的人进行多个连续的面部图像处理,极大限制了该方法在现实中的应用。
由于基于视频的说话人视频生成方法的限制,基于图像的说话人生成方法愈加流行,它仅需要一张人脸图像和音频剪辑便可以生成一系列与音频同步的说话者的面部图像。虽然基于图像的说话人生成方法极大的推进了说话人视频生成的发展,但是目前依然存在如下局限性:
1)生成人脸的情感不同步。面部表情是生成的说话人脸是否逼真的关键因素。虽然可以从额外的数据,如情感标签和情感视频中挖掘情感信息,但是由于情感与音频之间的域差,导致视听情感的不同步,例如,虽然音频呈现出的是快乐的语调,但是由于这种域鸿沟的存在,模型却生成了一个中性或者悲伤的表情,因此,如何使生成的人脸的情感与给定的音频保持一致成为现有技术的一大难题。
2)生成人脸的口型不准确。虽然现有的方法可以产生相对连贯和自然的嘴部动作,但是由于其很难和音频合轨,即很难令人的嘴部动作变化和音频变化保持一致,所以视频的合成痕迹明显,缺乏真实性,因此如何提高生成人物视频的嘴部动作与音频的适配性成为亟待解决的问题之一。
3)生成人脸的图像质量低。由于现存方法往往无法捕捉到由于面部表情变化所引起的面部的纹理变化,所以生成的图片极可能无法辨别其身份信息,即生成的图片模糊,比如,人胡子或者嘴唇细节不清晰,或者生成人的外貌特征与人真实的外貌特征之间存在差异,如胖瘦差异等,因此如何增强模型的生成能力,让生成的不同图像更好的展示情感差异,保持人的既定身份信息也是至关重要的。
发明内容
针对现有技术存在的不足,本发明的目的是提供一种基于音频情感感知的说话人脸视频生成方法及系统,通过有情感的人脸标记(facial landmark)生成网络生成音唇同步且视听情感一致特性的人脸标记,通过特征自适应的视觉变换网络合成更具真实性且高质量的说话人的视频,克服了现有技术中音唇不同步、情感一致性差、生成图像质量低的缺陷。
为了实现上述目的,本发明是通过如下的技术方案来实现:
本发明第一方面提供了一种基于音频情感感知的说话人脸视频生成方法,包括以下步骤:
获取音频片段和参考图像,利用有情感的人脸标记生成网络,生成有情感的人脸标记序列;
根据有情感的人脸标记序列与参考图像,利用特征自适应视觉变换网络逐帧生成说话人的面部图像;将说话人面部图像逐帧按顺序进行组合,生成说话人脸视频;
其中,利用特征自适应视觉变换网络逐帧生成说话人的面部图像的具体步骤包括:
根据有情感的人脸标记序列提取表情变化信息和唇部运动信息,通过连线的方式将情感的人脸标记序列转化为情感人脸标记图片;
通过挖掘情感人脸标记图片中的空间信息,提取标记嵌入表示,根据标记嵌入表示重构情感人脸标记图片;
根据参考图像中的身份信息和纹理信息,生成图像嵌入表示;
将图像嵌入表示以及标记嵌入表示通过特征自适应变换与重构的情感人脸标记图片融合,得到说话人的面部图像。
进一步的,所述参考图像为说话人视频生成任务所需图像,所述参考图像包含身份信息和纹理信息。
进一步的,利用有情感的人脸标记生成网络,生成有情感的人脸标记序列的具体步骤包括:
对音频片段进行编码得到初始编码,通过挖掘初始编码的信息,得到音频的全局特征表示和音频的序列特征表示,将音频的全局特征表示分离,得到音频内容特征表示和音频情感特征表示;
采用视觉情感表示通过相似度度量的方式对音频情感特征表示进行协调,形成新的音频的全局特征表示;
从参考图像中提取图像的初始人脸标记;
结合初始人脸标记、音频的序列特征表示和新的音频全局特征表示生成有情感的人脸标记序列。
更进一步的,采用视觉情感表示通过相似度度量的方式对音频情感特征表示进行协调,形成新的音频的全局特征表示的具体步骤为:
利用已知的真实人脸标记提取视觉情感特征表示;
利用情感分类预测方法对视觉情感特征表示进行增强,得到增强后的视觉情感特征表示;
采用协调表示的方法,通过相似度度量的计算方式使得音频情感特征表示近似于增强后的视觉情感特征表示。
更进一步的,结合初始人脸标记、音频的序列特征表示和新的音频全局特征表示生成有情感的人脸标记序列的具体步骤为:
提取音频的序列特征表示中的每个音频状态;
基于新的音频全局特征表示,利用注意力模块对每个音频状态进行时序增强,得到时序增强后的特征表示;
利用增强后的特征表示和参考图像的初始人脸标记解码每个音频状态的标记,得到有情感的人脸标记序列。
更进一步的,基于新的音频全局特征表示,利用注意力模块对每个音频状态进行时序增强,得到时序增强后的特征表示的具体步骤为:
获取每个音频状态与音频内容特征表示和音频情感特征表示之间的相关性程度;
根据三个连续音频状态与音频内容特征表示和音频情感特征表示之间的相关性程度计算三个连续音频状态的相关性得分;
根据三个连续音频状态的相关性得分和三个连续音频状态得到时序增强后的特征表示。
进一步的,通过挖掘情感人脸标记图片中的空间信息,提取标记嵌入表示,根据标记嵌入表示重构情感人脸标记图片的具体步骤为:
利用多尺度标记编码器充分挖掘情感人脸标记图片的空间信息,得到初步标记嵌入表示;
对初步标记嵌入表示进行情感的特征表示增强,得到最终的标记嵌入表示;
根据最终的标记嵌入表示重构情感人脸标记图片。
进一步的,将图像嵌入表示以及标记嵌入表示通过特征自适应变换与重构的情感人脸标记图片融合,得到说话人的面部图像的具体步骤为:
对图像嵌入表示和标记嵌入表示进行拼接;
将拼接后的图像嵌入表示和标记嵌入表示进行卷积;
将卷积后的图像嵌入表示和标记嵌入表示采用条件归一化的方式与上采样嵌入表示结合,得到说话人的面部图像。
更进一步的,所述上采样嵌入表示由解码过程中,上一层的解码结果经过上采样操作得到。
本发明第二方面提供了一种基于音频情感感知的说话人脸视频生成系统,包括:
有情感的人脸标记生成网络模块,被配置为获取音频片段和参考图像,利用有情感的人脸标记生成网络,生成有情感的人脸标记序列;
特征自适应视觉变换网络模块,被配置为根据有情感的人脸标记序列与参考图像,利用特征自适应视觉变换网络逐帧生成说话人的面部图像;将说话人面部图像按顺序进行组合,生成说话人脸视频;
其中,利用特征自适应视觉变换网络逐帧生成说话人的面部图像的具体步骤包括:
根据有情感的人脸标记序列提取表情变化信息和唇部运动信息,通过连线的方式将情感的人脸标记序列转化为情感人脸标记图片;
通过挖掘情感人脸标记图片中的空间信息,提取标记嵌入表示,根据标记嵌入表示重构情感人脸标记图片;
根据参考图像中的身份信息和纹理信息,生成图像嵌入表示;
将图像嵌入表示以及标记嵌入表示通过特征自适应变换与重构的情感人脸标记图片融合,得到说话人的面部图像。
以上一个或多个技术方案存在以下有益效果:
本发明公开了一种基于音频情感感知的说话人脸视频生成方法及系统,包括有情感的人脸标记生成网络和特征自适应的视觉变换网络,考虑了多个关键因素,包括视觉和音频的音唇同步、情感一致性和高质量的面部生成。
本发明的有情感的人脸标记生成网络可以生成音唇同步且视听情感一致特性的人脸标记;为了确保视频中的唇部运动与音频保持一致,通过联合考虑声音模态以及视觉模态信息来生成情感人脸标记。
本发明为了确保序列到序列网络生成人脸标记的情感与输入的音频保持一致,从输入的音频中分离出情感信息,并通过协调表示学习来增强被分离出的情感信息的特征表示。
本发明的特征自适应的视觉变换网络可以合成更具真实性且高质量的说话人的视频。为了可以将情感人脸标记信息无缝地嵌入潜在的图像特征中,本发明通过特征的自适应变换,使得生成的情感信息可以被充分地整合到给定的图像中,从而获得高质量的说话人的面部图像。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例一基于音频情感感知的说话人脸视频生成方法中有情感的人脸标记生成网络部分流程图;
图2为本发明实施例一基于音频情感感知的说话人脸视频生成方法中特征自适应的视觉变换网络部分流程图;
图3为本发明实施例一中有情感的人脸标记序列生成过程流程图;
图4为本发明实施例一中特征自适应变换过程示意图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
应当说明的是,本申请实施例中,涉及到音频和图像等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合;
实施例一:
本发明实施例一提供了一种基于音频情感感知的说话人脸视频生成方法,如图1所示,利用有情感的人脸标记生成网络得到有情感的人脸标记序列特征,其中,有情感的人脸标记生成网包括视觉情感提取器和序列对序列人脸标记生成器,视觉情感提取器通过真实图片的人脸标记和提取视觉情感特征表示,采用情感分类器对视觉情感特征表示进行增强。序列对序列人脸标记生成器中通过音频编码器对音频编码得到正交的音频内容特征表示和音频情感特征表示,并利用视觉情感特征表示对音频情感特征表示进行协调,音频内容特征表示和音频情感特征表示通过人脸标记编码器结合参考图片的初始人脸标记编码生成有情感的人脸标记序列进而得到情感人脸标记图片。如图2所示,将情感人脸标记图片和参考图片通过特征自适应的视觉变换网络生成情感人脸标记图片,并经过自适应变换得到最终的情感人脸标记图片即说话人的面部图像。
具体包括以下步骤:
步骤1,获取音频片段和参考图像,利用有情感的人脸标记生成网络生成有情感的人脸标记序列。
步骤1.1,采用序列对序列人脸标记生成器生成有情感的人脸标记。
步骤1.1.1,对音频片段进行编码得到初始编码。
在一种具体的实施方式中,先经过特征提取:音频初始编码过程为将给定的一个音频片段输入进Mel-spectrogram中,通过拼接其Mel谱的一阶和二阶特征表示构建音频片段的初始编码,其中,表示音频的输入长度。再将提取的特征经过音频编码器特征进行编码。
步骤1.2,通过挖掘初始编码的信息,得到音频的全局特征表示和音频的序列特征表示,将音频的全局特征表示分离,得到音频内容特征表示和音频情感特征表示。
步骤1.2.1,将音频片段的初始编码输入到单层门控循环单元(GRU)中,获得一个具备上下文感知力的音频序列特征表示和一个音频全局特征表示。
步骤1.2.2,由于音频全局特征表示中,不仅包含语音信息,即音频表达的内容,还蕴含着人物的情感信息,所以,音频全局特征表示可以同时对唇部运动变化的生成和情感信息的学习有利。基于此,通过以为激活函数的两个平行的线性层,将音频全局特征分离为音频内容特征表示和音频情感特征表示。为了理清音频内容特征表示和音频情感特征表示,故令二者保持正交,即。
步骤1.3, 采用视觉情感提取器生成视觉情感表示,采用视觉情感表示通过相似度度量的方式对音频情感特征表示进行协调,形成新的音频的全局特征表示。
步骤1.3.1,利用已知的真实人脸标记提取视觉情感特征表示。
在一种具体的实施方式中,构建标记编码器,标记编码器由GRU组成,将真实人脸标记作为它的输入,从中提取视觉情感特征表示。
步骤1.3.2,利用情感分类预测方法对视觉情感特征表示进行增强,得到增强后的视觉情感特征表示。
在一种具体的实施方式中,分类器学习过程中所采用的算法会强化那些对于分类成当前类别有用的特征,并削弱那些对分类类别没有用的特征。因此将视觉情感特征表示输入到情感分类器中去预测情感类别,利用这种方式以达到增强视觉情感特征表示的表达能力的效果。情感分类器是由两层线性层与的组成,其中,第一层线性层的激活函数为。
在一种具体的实施方式中,为了训练视觉情感提取器中的情感分类器,引入了情感分类损失:
(1)
其中,为情感分类损失,为情感类别的数量,为情感分类器对情感的预测概率,为第k种情感信息的类别向量。作为情感分类的类别标签,如果该输入样本存在第种情感信息,则,否则,。
步骤1.3.3,采用协调表示的方法,通过相似度度量的计算方式使得音频情感特征表示近似于增强后的视觉情感特征表示。
在一种具体的实施方式中,为了利用从视觉情感提取器中获得的视觉情感特征表示来监督音频情感特征表示的生成,采用协调表示的方法,通过相似度度量的计算方式,使得音频情感特征表示近似于视觉情感特征表示,公式如下所示:
(2)
其中,为相似度度量损失,为音频情感特征表示,为视觉情感特征表示。
步骤1.4,从参考图像中提取图像的初始人脸标记。
在一种具体的实施方式中,将给定的一个参考图像输入进人脸标记提取器Dlib中,提取它的初始标记编码即为初始人脸标记。其中,参考图像为说话人视频生成任务所需图像,所述参考图像包含身份信息和纹理信息,在全文中均为数字的阈表示符号。
步骤1.5结合初始人脸标记、音频的序列特征表示和新的音频全局特征表示生成有情感的人脸标记序列。具体的,用标记解码器合成相应的音唇同步的有情感的人脸标记序列,其定义如下:
(3)
其中,为有情感的人脸标记序列,为标记解码器,为音频情感特征表示,为初始标记编码,为音频内容特征表示,为音频序列特征表示。为了令口型的变化流畅且自然,于是在标记解码器中设计了一个注意力模块。该模块可以联合考虑每个音频状态的上文信息和下文信息。
提取音频的序列特征表示中的每个音频状态。
步骤1.5.2,基于新的音频全局特征表示,利用注意力模块对每个音频状态进行时序增强,得到时序增强后的特征表示。
步骤1.5.2.1,获取每个音频状态与音频内容特征表示和音频情感特征表示之间的相关性程度;
步骤1.5.2.2,根据三个连续音频状态与音频内容特征表示和音频情感特征表示之间的相关性程度计算三个连续音频状态的相关性得分;
步骤1.5.2.3,根据三个连续音频状态的相关性得分和三个连续音频状态得到时序增强后的特征表示。
在一种具体的实施方式中,如图3所示,注意力模块的表述如下:
(4)
其中,表示拼接。表示的是第个音频状态与音频内容特征表示和音频情感特征表示之间的相关性程度。是以为激活函数的两层线性层组成。和分别为的前一个音频状态和后一个音频状态与音频内容特征表示和音频情感特征表示之间的关联程度,它们的计算方式与相同。为三个连续音频状态的相关性得分。代表的是被时序增强的第个音频状态的特征表示。
步骤1.5.3,利用增强后的特征表示和参考图像的初始人脸标记解码每个音频状态的标记,得到有情感的人脸标记序列。
在一种具体的实施方式中,以第个音频状态为例,利用经过时序增强的第个音频状态的特征表示和参考图像的初始标记解码第个音频状态的标记,其表述形式如下:
(5)
其中,是GRU网络。表示结合了时序音频信息和初始标记信息的中层潜在特征。潜在特征的初始状态。是以为激活函数的线性层。为第个音频状态所生成的情感标记,所有状态的情感标记集合即为有情感的人脸标记序列。
步骤1.6,对序列对序列人脸标记生成器引入重构损失,目的是为了令序列到序列人脸标记生成器模块生成的人脸标记更精准。
在一种具体的实施方式中,通过计算真实标记序列和序列对序列人脸标记生成器生成的有情感的人脸标记序列之间的欧式范数,使得生成的有情感的人脸标记序列不断趋近真实人脸标记序列。
更进一步的,可得到有情感的人脸标记生成网络的损失函数为:
(6)
其中,为重构损失,为相似度度量损失,为情感分类损失,和为不同损失的损失系数,用于平衡不同项之间的相对重要性。
步骤2,根据有情感的人脸标记序列与参考图像,利用特征自适应视觉变换网络逐帧生成说话人的面部图像;将说话人面部图像按顺序进行组合,生成说话人脸视频。
步骤2.1,根据有情感的人脸标记序列提取表情变化信息和唇部运动信息,通过连线的方式将情感的人脸标记序列转化为情感人脸标记图片。
在一种具体的实施方式中,用线连接第个音频状态所生成的情感标记的标记坐标,并用不同的颜色标记面部的五个器官,本实施例中为眉毛、眼睛、鼻子、嘴巴、下颌,便得到了大小为的第个人脸标记图片,由于音频状态与人脸标记图片个数对应,为了体现一致性,本实施例中音频对应的图片编号和音频状态编号均用t表示。
步骤2.2,通过挖掘情感人脸标记图片中的空间信息,提取标记嵌入表示,根据标记嵌入表示重构情感人脸标记图片。
步骤2.2.1,利用多尺度标记编码器充分挖掘情感人脸标记图片的空间信息,得到初步标记嵌入表示。其中,多尺度标记编码器是由层的卷积神经网络构成。
步骤2.2.2,对初步标记嵌入表示进行情感的特征表示增强,得到最终的标记嵌入表示。
在一种具体的实施方式中,为了增强特征表示的表达能力,在编码层和解码层之间添加跳接层,利用该结构将初步标记嵌入表示解码为情感标记,即为最终的标记嵌入表示。其中,标记解码器是由与标记编码器对称的个反卷积层组成。
步骤2.2.3,根据最终的标记嵌入表示重构情感人脸标记图片。在经过步骤2.2.1和步骤2.2.2后,原第个人脸标记图片被重构为新的人脸标记图片。
步骤2.3,根据参考图像中的身份信息和纹理信息,生成图像嵌入表示。
在一种具体的实施方式中,通过与标记编码层类似的结构,即采用了层图像编码器,从参考图像中提取当前所需任务的身份信息以及纹理信息,而生成的第个人脸标记图片对应的图像嵌入表示,记为。
步骤2.4,将图像嵌入表示以及标记嵌入表示通过特征自适应变换与重构的情感人脸标记图片融合,得到说话人的面部图像。其中,特征自适应变换过程仅存在于图像解码器的前层中,它的输入为图片嵌入表示和标记嵌入表示。
步骤2.4.1,对图像嵌入表示和标记嵌入表示进行拼接。
如图4所示,步骤2.4.2,将拼接后的图像嵌入表示和标记嵌入表示进行卷积。
在一种具体的实施方式中,使用两个的卷积层令图像嵌入表示和标记嵌入表示自适应的融合。
步骤2.4.3,将卷积后的图像嵌入表示和标记嵌入表示采用条件归一化的方式与上采样嵌入表示结合,得到说话人的面部图像。
在一种具体的实施方式中,最后采用条件归一化的方式与上采样嵌入表示相结合的公式为:
(7)
其中,是对于第个音频状态在第个解码层输出,表示位于第个通道的值,是上采样嵌入表示的坐标,和分别代表了的第个通道的平均值和标准差。和是一层卷积层。和分别代表了归一化模块的尺度值和位移值,它们的计算都依赖于图片和标记的嵌入表示,为图片嵌入表示,为标记嵌入表示。因此,这个模块可以灵活的将图片的嵌入表示、标记的嵌入表示、前期解码层的信息集成到之后的解码层中。
在一种具体的实施方式中,所述上采样嵌入表示由解码过程中,上一层的解码结果经过上采样操作得到。
对于第层图像解码层的输出,将其经过反卷积,批归一化以及激活函数的上采样操作后,获得上采样嵌入表示。其中,图像解码器是一个具有跳接操作的层上采样模块。
本发明设计了一个序列到序列具有情感的人脸标记生成器,可以有效地同步给定音频的情感和内容信息。是首次将情感标记生成器用于说话人生成任务的方法,它可以被插入到任一个现有的以人脸标记驱动说话人生成方法中,为这些方法生成的人脸赋予情感。本发明还通过特征的自适应变换,使得生成的情感信息可以被充分地整合到给定的图像中,从而获得高质量的说话人的面部图像。
步骤2.5,为了对特征自适应视觉变换网络进行优化,引入损失函数:
(8)
其中,为特征自适应视觉变换网络的损失,为标记嵌入损失,为对抗损失,为感知损失,、为不同损失函数的损失系数。
步骤2.5.1,为了最小化预测图片与真实图片之间的像素差异,为标记嵌入模块引入了标记嵌入损失,即范数。此目标函数使用的是真实图片作为监督信息,而不是使用未经过标记嵌入模块操作的标记图片作为监督信息,其原因在于,在训练阶段时,可轻微修正的表示。
步骤2.5.2,为了提升图片的质量,为视觉变换网络引入了对抗损失。和是两个不同的条件鉴别器,可以利用它们提高视觉变换网络的生成能力。其中,被训练用于区分全尺度合成图像和真实图像之间的差异,被训练用于区分在半尺度上合成图像和真实图像之间的差异。其定义如下所示:
(9)
其中,为对抗损失,为生成判别损失,为基于辨别器的特征映射损失,表示特征自适应视觉变换网络。为鉴别器,n为鉴别器标号,对于鉴别器和,二者都是由三个卷积层组成,其中,每个卷积层都有一个批归一化层和激活函数。的输入是通过合成图像和真实图像在窗口大小为的平均池化方式获得的。
生成判别损失的定义如下:
(10)
其中,表示数学期望,表示经过第一阶段生成的第个人脸标记图片,是第个人脸标记图片对应的真实的图片,为鉴别器,n为鉴别器标号,是参考图像。
是基于辨别器的特征映射损失,定义如下:
(11)
其中,表示数学期望,表示经过第一阶段生成的第个人脸标记图片是第个人脸标记图片对应的真实的图片,是鉴别器的第层,表示鉴别器的总层数,表示第层的元素总数,T表示人脸标记图片总个数。
步骤2.5.3,感知损失被用于在特征级别上约束网络,从而帮助模型生成高质量的图片,其定义如下:
(12)
其中,表示数学期望,表示经过第一阶段生成的第个人脸标记图片是第个人脸标记图片对应的真实的图片,表示第VGG网络的第j层,Z为总层数,代表第层的元素总数,T表示人脸标记图片总个数。
实施例二:
本发明实施例二提供了一种基于音频情感感知的说话人脸视频生成系统,包括:
有情感的人脸标记生成网络模块,被配置为获取音频片段和参考图像,利用有情感的人脸标记生成网络,生成有情感的人脸标记序列;
特征自适应视觉变换网络模块,被配置为根据有情感的人脸标记序列与参考图像,利用特征自适应视觉变换网络逐帧生成说话人的面部图像;将说话人面部图像按顺序进行组合,生成说话人脸视频;
其中,利用特征自适应视觉变换网络逐帧生成说话人的面部图像的具体步骤包括:
根据有情感的人脸标记序列提取表情变化信息和唇部运动信息,通过连线的方式将情感的人脸标记序列转化为情感人脸标记图片;
通过挖掘情感人脸标记图片中的空间信息,提取标记嵌入表示,根据标记嵌入表示重构情感人脸标记图片;
根据参考图像中的身份信息和纹理信息,生成图像嵌入表示;
将图像嵌入表示以及标记嵌入表示通过特征自适应变换与重构的情感人脸标记图片融合,得到说话人的面部图像。
以上实施例二中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。术语“计算机可读存储介质”应该理解为包括一个或多个指令集的单个介质或多个介质;还应当被理解为包括任何介质,所述任何介质能够存储、编码或承载用于由处理器执行的指令集并使处理器执行本发明中的任一方法。
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (9)
1.一种基于音频情感感知的说话人脸视频生成方法,其特征在于,包括:包括以下步骤:
获取音频片段和参考图像,利用有情感的人脸标记生成网络,生成有情感的人脸标记序列;具体步骤包括:对音频片段进行编码得到初始编码,通过挖掘初始编码的信息,得到音频的全局特征表示和音频的序列特征表示,将音频的全局特征表示分离,得到音频内容特征表示和音频情感特征表示;采用视觉情感表示通过相似度度量的方式对音频情感特征表示进行协调,形成新的音频的全局特征表示;从参考图像中提取图像的初始人脸标记;结合初始人脸标记、音频的序列特征表示和新的音频全局特征表示生成有情感的人脸标记序列;
根据有情感的人脸标记序列与参考图像,利用特征自适应视觉变换网络逐帧生成说话人的面部图像;将说话人面部图像按顺序进行组合,生成说话人脸视频;
其中,利用特征自适应视觉变换网络逐帧生成说话人的面部图像的具体步骤包括:
根据有情感的人脸标记序列提取表情变化信息和唇部运动信息,通过连线的方式将情感的人脸标记序列转化为情感人脸标记图片;
通过挖掘情感人脸标记图片中的空间信息,提取标记嵌入表示,根据标记嵌入表示重构情感人脸标记图片;
根据参考图像中的身份信息和纹理信息,生成图像嵌入表示;
将图像嵌入表示以及标记嵌入表示通过特征自适应变换与重构的情感人脸标记图片融合,得到说话人的面部图像。
2.如权利要求1所述的基于音频情感感知的说话人脸视频生成方法,其特征在于,所述参考图像为说话人视频生成任务所需图像,所述参考图像包含身份信息和纹理信息。
3.如权利要求1所述的基于音频情感感知的说话人脸视频生成方法,其特征在于,采用视觉情感表示通过相似度度量的方式对音频情感特征表示进行协调,形成新的音频的全局特征表示的具体步骤为:
利用已知的真实人脸标记提取视觉情感特征表示;
利用情感分类预测方法对视觉情感特征表示进行增强,得到增强后的视觉情感特征表示;
采用协调表示的方法,通过相似度度量的计算方式使得音频情感特征表示近似于增强后的视觉情感特征表示。
4.如权利要求3所述的基于音频情感感知的说话人脸视频生成方法,其特征在于,结合初始人脸标记、音频的序列特征表示和新的音频全局特征表示生成有情感的人脸标记序列的具体步骤为:
提取音频的序列特征表示中的每个音频状态;
基于新的音频全局特征表示,利用注意力模块对每个音频状态进行时序增强,得到时序增强后的特征表示;
利用增强后的特征表示和参考图像的初始人脸标记解码每个音频状态的标记,得到有情感的人脸标记序列。
5.如权利要求4所述的基于音频情感感知的说话人脸视频生成方法,其特征在于,基于新的音频全局特征表示,利用注意力模块对每个音频状态进行时序增强,得到时序增强后的特征表示的具体步骤为:
获取每个音频状态与音频内容特征表示和音频情感特征表示之间的相关性程度;
根据三个连续音频状态与音频内容特征表示和音频情感特征表示之间的相关性程度计算三个连续音频状态的相关性得分;
根据三个连续音频状态的相关性得分和三个连续音频状态得到时序增强后的特征表示。
6.如权利要求1所述的基于音频情感感知的说话人脸视频生成方法,其特征在于,通过挖掘情感人脸标记图片中的空间信息,提取标记嵌入表示,根据标记嵌入表示重构情感人脸标记图片的具体步骤为:
利用多尺度标记编码器充分挖掘情感人脸标记图片的空间信息,得到初步标记嵌入表示;
对初步标记嵌入表示进行情感的特征表示增强,得到最终的标记嵌入表示;
根据最终的标记嵌入表示重构情感人脸标记图片。
7.如权利要求6所述的基于音频情感感知的说话人脸视频生成方法,其特征在于,将图像嵌入表示以及标记嵌入表示通过特征自适应变换与重构的情感人脸标记图片融合,得到说话人的面部图像的具体步骤为:
对图像嵌入表示和标记嵌入表示进行拼接;
将拼接后的图像嵌入表示和标记嵌入表示进行卷积;
将卷积后的图像嵌入表示和标记嵌入表示采用条件归一化的方式与上采样嵌入表示结合,得到说话人的面部图像。
8.如权利要求7所述的基于音频情感感知的说话人脸视频生成方法,其特征在于,所述上采样嵌入表示由解码过程中,上一层的解码结果经过上采样操作得到。
9.一种基于音频情感感知的说话人脸视频生成系统,其特征在于,包括:
有情感的人脸标记生成网络模块,被配置为获取音频片段和参考图像,利用有情感的人脸标记生成网络,生成有情感的人脸标记序列;具体步骤包括:对音频片段进行编码得到初始编码,通过挖掘初始编码的信息,得到音频的全局特征表示和音频的序列特征表示,将音频的全局特征表示分离,得到音频内容特征表示和音频情感特征表示;采用视觉情感表示通过相似度度量的方式对音频情感特征表示进行协调,形成新的音频的全局特征表示;从参考图像中提取图像的初始人脸标记;结合初始人脸标记、音频的序列特征表示和新的音频全局特征表示生成有情感的人脸标记序列;
特征自适应视觉变换网络模块,被配置为根据有情感的人脸标记序列与参考图像,利用特征自适应视觉变换网络逐帧生成说话人的面部图像;将说话人面部图像按顺序进行组合,生成说话人脸视频;
其中,利用特征自适应视觉变换网络逐帧生成说话人的面部图像的具体步骤包括:
根据有情感的人脸标记序列提取表情变化信息和唇部运动信息,通过连线的方式将情感的人脸标记序列转化为情感人脸标记图片;
通过挖掘情感人脸标记图片中的空间信息,提取标记嵌入表示,根据标记嵌入表示重构情感人脸标记图片;
根据参考图像中的身份信息和纹理信息,生成图像嵌入表示;
将图像嵌入表示以及标记嵌入表示通过特征自适应变换与重构的情感人脸标记图片融合,得到说话人的面部图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310490935.1A CN116233567B (zh) | 2023-05-05 | 2023-05-05 | 一种基于音频情感感知的说话人脸视频生成方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310490935.1A CN116233567B (zh) | 2023-05-05 | 2023-05-05 | 一种基于音频情感感知的说话人脸视频生成方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116233567A CN116233567A (zh) | 2023-06-06 |
CN116233567B true CN116233567B (zh) | 2023-07-25 |
Family
ID=86569758
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310490935.1A Active CN116233567B (zh) | 2023-05-05 | 2023-05-05 | 一种基于音频情感感知的说话人脸视频生成方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116233567B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117153195B (zh) * | 2023-10-31 | 2024-03-12 | 中国传媒大学 | 基于自适应区域遮挡的说话人脸视频生成方法及系统 |
CN117911589B (zh) * | 2024-01-25 | 2024-07-23 | 中科世通亨奇(北京)科技有限公司 | 人脸视频的编辑方法、系统及电子设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115116109A (zh) * | 2022-04-27 | 2022-09-27 | 平安科技(深圳)有限公司 | 虚拟人物说话视频的合成方法、装置、设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105976809B (zh) * | 2016-05-25 | 2019-12-17 | 中国地质大学(武汉) | 基于语音和面部表情的双模态情感融合的识别方法及系统 |
CN116391209A (zh) * | 2020-11-13 | 2023-07-04 | 创峰科技 | 现实的音频驱动的3d化身生成 |
CN115588224B (zh) * | 2022-10-14 | 2023-07-21 | 中南民族大学 | 一种基于人脸关键点预测的虚拟数字人生成方法及装置 |
CN115761075A (zh) * | 2022-11-21 | 2023-03-07 | 百果园技术(新加坡)有限公司 | 脸部图像生成方法及其装置、设备、介质、产品 |
CN115908659A (zh) * | 2022-11-25 | 2023-04-04 | 西安交通大学 | 一种基于生成对抗网络的说话人脸合成方法和装置 |
-
2023
- 2023-05-05 CN CN202310490935.1A patent/CN116233567B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115116109A (zh) * | 2022-04-27 | 2022-09-27 | 平安科技(深圳)有限公司 | 虚拟人物说话视频的合成方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116233567A (zh) | 2023-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Richard et al. | Meshtalk: 3d face animation from speech using cross-modality disentanglement | |
Aldausari et al. | Video generative adversarial networks: a review | |
CN116233567B (zh) | 一种基于音频情感感知的说话人脸视频生成方法及系统 | |
CN113194348B (zh) | 一种虚拟人讲课视频生成方法、系统、装置及存储介质 | |
Ma et al. | Styletalk: One-shot talking head generation with controllable speaking styles | |
Chuang et al. | Mood swings: expressive speech animation | |
CN113192161A (zh) | 一种虚拟人形象视频生成方法、系统、装置及存储介质 | |
US11581020B1 (en) | Facial synchronization utilizing deferred neural rendering | |
Ma et al. | Dreamtalk: When expressive talking head generation meets diffusion probabilistic models | |
Zhou et al. | An image-based visual speech animation system | |
CN108962216A (zh) | 一种说话视频的处理方法及装置、设备和存储介质 | |
CN117237521A (zh) | 语音驱动人脸生成模型构建方法、目标人说话视频生成方法 | |
Gafni et al. | Wish you were here: Context-aware human generation | |
CN117409121A (zh) | 基于音频和单幅图像驱动的细粒度情感控制说话人脸视频生成方法、系统、设备及介质 | |
CN111275778B (zh) | 人脸简笔画生成方法及装置 | |
Chatziagapi et al. | LipNeRF: What is the right feature space to lip-sync a NeRF? | |
Liu et al. | Talking face generation via facial anatomy | |
Wang et al. | Talking faces: Audio-to-video face generation | |
Chen et al. | Expressive Speech-driven Facial Animation with controllable emotions | |
Wang et al. | InstructAvatar: Text-Guided Emotion and Motion Control for Avatar Generation | |
Gowda et al. | From pixels to portraits: A comprehensive survey of talking head generation techniques and applications | |
CN115578298A (zh) | 一种基于内容感知的深度肖像视频合成方法 | |
Wang et al. | Flow2Flow: Audio-visual cross-modality generation for talking face videos with rhythmic head | |
Zhai et al. | Talking face generation with audio-deduced emotional landmarks | |
Lu et al. | Audio-Driven 3D Facial Animation from In-the-Wild Videos |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |