CN117372553B - 人脸图像生成方法及装置、计算机可读存储介质、终端 - Google Patents

人脸图像生成方法及装置、计算机可读存储介质、终端 Download PDF

Info

Publication number
CN117372553B
CN117372553B CN202311085684.5A CN202311085684A CN117372553B CN 117372553 B CN117372553 B CN 117372553B CN 202311085684 A CN202311085684 A CN 202311085684A CN 117372553 B CN117372553 B CN 117372553B
Authority
CN
China
Prior art keywords
model
coding
sub
audio
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311085684.5A
Other languages
English (en)
Other versions
CN117372553A (zh
Inventor
虞钉钉
徐清
宣晓华
王晓梅
沈伟林
沈旭立
曹培
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huayuan Computing Technology Shanghai Co ltd
Original Assignee
Huayuan Computing Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huayuan Computing Technology Shanghai Co ltd filed Critical Huayuan Computing Technology Shanghai Co ltd
Priority to CN202311085684.5A priority Critical patent/CN117372553B/zh
Publication of CN117372553A publication Critical patent/CN117372553A/zh
Application granted granted Critical
Publication of CN117372553B publication Critical patent/CN117372553B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/18Details of the transformation process
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • G10L2021/105Synthesis of the lips movements from speech, e.g. for talking heads
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Abstract

一种人脸图像生成方法及装置、计算机可读存储介质、终端,方法包括:确定人脸图像生成模型,包括图像编码子模型、音频编码子模型、音频映射子模型以及解码子模型;将驱动音频输入音频编码子模型,得到音频编码特征,以及将下半部分被遮挡的人脸图像输入图像编码子模型,得到人脸图像编码特征;将音频编码特征输入音频映射子模型,得到权重向量;采用权重向量,对预设的多个记忆口型编码特征进行加权运算,得到融合口型特征,其中,多个记忆口型编码特征对应于不同类型的口型;将音频编码特征、人脸图像编码特征以及融合口型特征,输入解码子模型,得到人脸生成图像。上述方案有助于提高人脸生成图像与驱动音频的口型匹配度。

Description

人脸图像生成方法及装置、计算机可读存储介质、终端
技术领域
本发明涉及数字人生成技术领域,尤其涉及一种人脸图像生成方法及装置、计算机可读存储介质、终端。
背景技术
随着人工智能技术的发展,生成式人工智能(Artificial IntelligenceGenerated Content,AIGC)已经成为当前最热门的研究课题。AIGC技术在数字说话人生成领域也具有广泛的应用。数字说话人生成任务,其本质是输入音频和人物图像,然后依次生成和音频内容相对应的人脸图像。如何提高人脸生成图像与输入音频的口型匹配度,仍然具有重要的研究价值。
当前,对于该任务的主流技术基本都会采用深度模型。具体而言,可以分为两大类:二阶段方法和单阶段方法。二阶段方法通过引入中间特征,将生成任务分为两个子任务,并用两个深度模型分别完成相应的子任务。常见的中间特征包括关键点、三维重建系数等等。单阶段方法则对输入音频和输入人脸图像分别进行编码得到的音频编码特征和人脸图像编码特征;然后直接基于音频编码特征和人脸图像编码特征进行解码得到人脸生成图像。
然而,无论采用上述现有技术的何种方法,获得的人脸生成图像与输入音频的口型匹配度仍不够高,并且可能出现一些非自然的口型。
发明内容
本发明实施例解决的技术问题是如何提高人脸生成图像与输入音频的口型匹配度,改进人脸生成图像的效果。
为解决上述技术问题,本发明实施例提供一种人脸图像生成方法,包括以下步骤:确定人脸图像生成模型,所述人脸图像生成模型包括图像编码子模型、音频编码子模型、音频映射子模型以及解码子模型;将驱动音频输入所述音频编码子模型,得到音频编码特征,以及将下半部分被遮挡的人脸图像输入所述图像编码子模型,得到人脸图像编码特征;将所述音频编码特征输入所述音频映射子模型,得到权重向量;采用所述权重向量,对预设的多个记忆口型编码特征进行加权运算,得到融合口型特征,其中,所述多个记忆口型编码特征对应于不同类型的口型;将所述音频编码特征、所述人脸图像编码特征以及所述融合口型特征,输入所述解码子模型,得到人脸生成图像。
可选的,在采用所述权重向量,对预设的多个记忆口型编码特征进行加权运算,得到融合口型特征之前,所述方法还包括:获取多张样本人脸图像,所述多张样本人脸图像具有不同的预设类型的口型;对所述多张样本人脸图像的下半部分分别进行图像编码,得到对应的多个样本口型编码特征;对所述多个样本口型编码特征进行聚类,将作为聚类的中心的各个样本口型编码特征,确定为所述多个记忆口型编码特征。
可选的,对每张所述样本人脸图像的下半部分进行图像编码,包括:确定编解码模型,所述编解码模型包含样本图像编码子模型和样本图像解码子模型;采用所述多张样本人脸图像,对所述编解码模型进行训练,得到训练后的样本图像编码子模型和训练后的样本图像解码子模型;将所述多张样本人脸图像的下半部分,输入所述训练后的样本图像编码子模型进行图像编码。
可选的,满足以下一项或多项:所述多张样本人脸图像选自:用于训练得到所述人脸图像生成模型的人脸图像训练数据集;所述编解码模型包含的样本图像编码子模型与所述人脸图像生成模型包含的图像编码子模型的模型架构一致;以及,所述编解码模型包含的样本图像解码子模型的模型架构与所述人脸图像生成模型包含的解码子模型架构一致。
可选的,所述确定人脸图像生成模型,包括:构建待训练模型,所述待训练模型包括:待训练图像编码子模型、待训练音频编码子模型、待训练音频映射子模型以及待训练解码子模型;确定训练数据集,所述训练数据集包括多张下半部分被遮挡的人脸训练图像以及多帧训练音频;采用目标损失函数,将所述训练数据集输入所述待训练模型进行迭代训练,得到所述人脸图像生成模型;
其中,每轮迭代操作包括:将所述人脸训练图像输入所述待训练图像编码子模型,得到样本人脸图像编码特征,以及将所述训练音频输入所述待训练音频编码子模型,得到样本音频编码特征;所述样本音频编码特征输入所述待训练音频映射子模型,得到样本权重向量;采用所述样本权重向量,对所述多个记忆口型编码特征进行加权运算,融合样本口型编码特征;将所述样本音频编码特征、样本人脸图像编码特征以及所述融合样本口型编码特征,输入所述待训练解码子模型,得到当前轮迭代后的样本人脸生成图像。
可选的,所述目标损失函数是对L1损失函数、生成对抗网络GAN损失函数以及感知损失函数中的至少两项进行加权运算得到的。
可选的,所述权重向量满足以下一项或多项:所述权重向量中的多个权重值之和为1;所述权重向量中的多个权重与所述多个记忆口型编码特征一一对应。
可选的,输入所述音频编码子模型的驱动音频的时长,与输入所述图像编码子模型的人脸图像的时长的比值大于等于5。
本发明实施例还提供一种人脸图像生成装置,包括:确定人脸图像生成模型,所述人脸图像生成模型包括图像编码子模型、音频编码子模型、音频映射子模型以及解码子模型;将驱动音频输入所述音频编码子模型,得到音频编码特征,以及将下半部分被遮挡的人脸图像输入所述图像编码子模型,得到人脸图像编码特征;将所述音频编码特征输入所述音频映射子模型,得到权重向量;采用所述权重向量,对预设的多个记忆口型编码特征进行加权运算,得到融合口型特征;将所述音频编码特征、所述人脸图像编码特征以及所述融合口型特征,输入所述解码子模型,得到人脸生成图像。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行上述人脸图像生成方法的步骤。
本发明实施例还提供一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行上述人脸图像生成方法的步骤。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
在本发明实施例中,考虑到大多数输入音频对应的口型与人类说话时的常见类型的口型的一种或多种的相关性较高,基于此原理,通过引入对应于不同类型的口型的多个记忆口型编码特征,获得最终的人脸生成图像。具体而言:将所述音频编码特征映射为权重向量,由于所述权重向量中的各个权重值可以准确表征驱动音频与记忆口型编码特征(对应于不同类型的真实口型)之间的相关性程度;然后通过加权融合,获得融合了多种不同的真实口型的融合口型特征。在后续解码操作中,除音频编码特征、人脸图像编码特征之外,还将所述融合口型特征作为解码输入数据之一。由此,在所述融合口型特征的作用下,可以生成口型和所述驱动音频准确匹配的人脸生成图像,即,所述人脸生成图像具有和所述驱动音频准确匹配的嘴部动态。进一步,通过加权融合处理还有助于获得更加标准、自然的口型。
进一步,由于所述融合口型特征是对所述多个记忆口型编码特征进行加权运算获得,因此,所述记忆口型编码特征的精度可以直接决定获得的融合口型特征的精度,进而影响人脸生成图像的质量。基于此,在本发明实施例中,采用聚类方式实现对所述多个样本口型编码特征对应的口型进行分类,同一聚类内的各个样本口型编码特征对应的口型相近或相同。由于聚类的中心能够反映聚类中的各个样本口型编码特征的平均情况,因此,相较于直接采用对多张不同口型的样本人脸图像编码得到的多个样本口型编码特征,或者,相较于从每个聚类中随机选取样本口型编码特征,作为所述多个记忆口型编码特征,采用本实施方案有助于获得更具典型性和普遍性的记忆口型编码特征,进而提高后续生成的人脸生成图像的口型标准度和自然度,获得更高质量的人脸生成图像。
附图说明
图1是本发明实施例中一种人脸图像生成方法的流程图;
图2是本发明实施例中一种人脸图像生成模型的架构示意图;
图3是训练得到图2所示人脸图像生成模型的流程图;
图4是本发明实施例中另一种人脸图像生成方法的部分流程图;
图5是本发明实施例中一种人脸图像生成装置的结构示意图。
具体实施方式
为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细说明。
参照图1,图1是本发明实施例中一种人脸图像生成方法的流程图。所述方法可以应用于具有音频及图像处理功能的终端,包括但不限于计算机、手机、平板电脑、智能可穿戴设备(例如,智能手表)、车载式终端,还可以包括服务器、云平台等。
所述人脸图像生成方法可以包括步骤S11至步骤S15:
步骤S11:确定人脸图像生成模型,所述人脸图像生成模型包括图像编码子模型、音频编码子模型、音频映射子模型以及解码子模型;
步骤S12:将驱动音频输入所述音频编码子模型,得到音频编码特征,以及将下半部分被遮挡的人脸图像输入所述图像编码子模型,得到人脸图像编码特征;
步骤S13:将所述音频编码特征输入所述音频映射子模型,得到权重向量;
步骤S14:采用所述权重向量,对预设的多个记忆口型编码特征进行加权运算,得到融合口型特征,其中,所述多个记忆口型编码特征对应于不同类型的口型;
步骤S15:将所述音频编码特征、所述人脸图像编码特征以及所述融合口型特征,输入所述解码子模型,得到人脸生成图像。
以下结合图2对图1中基于所述人脸图像生成模型生成所述人脸生成图像的详细过程(也可称为所述人脸图像生成模型的推理或应用过程)进行说明。图2是本发明实施例中一种人脸图像生成模型的架构示意图。
在步骤S11的具体实施中,所述确定人脸图像生成模型,可以指直接获取预先训练好的人脸图像生成模型。具体地,所述人脸图像生成模型可以包括图像编码子模型21、音频编码子模型22、音频映射子模型23以及解码子模型24。
其中,所述图像编码子模型21可以包括:卷积层、激活层以及正则化层;所述音频编码子模型22可以包括:线性层、自注意力层、卷积层、激活层以及正则化层;所述音频映射子模型23可以包括:线性层、激活层、正则化层以及归一化层;所述解码子模型24包括:卷积层、反卷积层、激活层以及正则化层。
需要指出的是,在实际应用中,人脸图像生成模型的架构及其各个子模型包含的层次结构,不限于上述列举的情形,可以结合场景需求进行适当调整。
在步骤S12的具体实施中,将驱动音频输入所述音频编码子模型22,得到音频编码特征,以及将下半部分被遮挡的人脸图像输入所述图像编码子模型21,得到人脸图像编码特征。其中,所述音频编码特征和人脸图像编码特征通常为向量形式,因此也可称为音频特征向量和人脸图像特征向量。
在一些实施例中,所述驱动音频与所述下半部分被遮挡的人脸图像可以来源于相同的说话者。例如,可以在说话者的说话过程进行视频录制,对录制的视频提取音频流和人脸图像流;然后分别对所述音频流和人脸图像流进行采样,得到时序对应的至少一帧所述驱动音频和至少一帧人脸图像;再对所述人脸图像遮挡下半部分。
在另一些实施例中,所述驱动音频与所述下半部分被遮挡的人脸图像可以来源于不同的说话者。例如,所述驱动音频可以获取自对说话者的说话过程录制的视频,所述人脸图像可以获取自与所述驱动音频的口型相近或一致的建模人脸图像(比如预先建模得到的具有标准口型的人脸图像)。
进一步地,输入所述音频编码子模型22的驱动音频的时长,与输入所述图像编码子模型21的人脸图像的时长的比值大于等于5。
例如,对于帧率为50FPS的视频而言,单帧人脸图像覆盖的时长为1/50s,即20ms;因此所述驱动音频的时长应大于20ms,通常可以选择100ms、200ms等时长的驱动音频。
可以理解的是,在具体实施中,可以设置所述驱动音频的时间区间覆盖所述人脸图像的时间区间,即,所述人脸图像的时间区间位于所述驱动音频的时间区间内。
在本发明实施例中,通过设置所述驱动音频时长远大于(至少5倍数量级)人脸图像的时长,相较于设置两者时长相等或较少倍数(例如,1倍或2倍),有助于为生成人脸生成图像提供足够丰富的音频信息。
进一步地,在设置所述人脸图像的时间区间位于所述驱动音频的时间区间内的基础上,可以设置所述人脸图像的时间区间位于所述驱动音频的时间区间的中间位置,以提供输入的人脸图像所对应音频的前后时序的、连贯的音频信息,有助于提高最后合成的口型的标准度和自然度。
在具体实施中,可以采用掩码对所述人脸图像的下半部分进行覆盖。关于掩码的形状,可以结合实际需要进行设置。例如,可以选自但不限于半圆、长方形或者半脸形状。
需要指出的是,被遮挡的下半部分至少应包含所述人脸图像的嘴部所在区域。例如,所述下半部分所在区域可以仅包含嘴唇区域;或者,可以包含鼻尖至下巴的区域;又或者,可以包含眼睛以下至下巴的区域。
在步骤S13的具体实施中,将所述音频编码子模型22输出的所述音频编码特征输入至所述音频映射子模型23,得到权重向量。其中,所述音频映射子模型23主要通过对输入的音频编码特征进行线性映射、激活函数处理、正则化、归一化处理等操作,得到包含多个权重值的所述权重向量。
其中,所述权重向量的多个权重值与所述多个记忆口型编码特征具有预设的对应关系。每个权重值可以用于表征所述音频编码特征与该权重值对应的记忆口型编码特征之间的相关性程度。权重值越大,意味着所述音频编码特征与该权重值对应的记忆口型编码特征之间的相关性程度越大。
具体而言,所述音频编码特征实际上是所述驱动音频中包含的语音特征信息,该语音特征信息一定程度上可以表征说话者在说话过程的口型特征;,所述记忆口型编码特征包含其对应的预设口型特征(例如,样本人脸图像中的真实口型特征)。通过将所述音频编码特征映射为权重向量,每个权重值实际可以反映所述驱动音频与所述多个记忆口型编码特征对应的不同真实口型之间的关联性或相似性程度。
进一步地,所述权重向量可以满足以下一项或多项:所述权重向量中的多个权重值之和为1;所述权重向量中的多个权重与所述多个记忆口型编码特征一一对应。
具体地,所述权重向量的长度,即,包含的权重值的个数,可与所述记忆口型编码特征的个数一致。每种记忆编码特征可以对应单种口型,不同的记忆编码特征对应的口型类型不同。
在具体实施中,可以结合实际需要设置所述权重向量的长度。非限制性地,所述权重向量的长度、记忆口型编码特征的个数n及其对应的口型的种类均可以设置为区间[50,100]中的适当数值,例如可以设置n=80。
在步骤S14的具体实施中,通过加权运算得到的所述融合口型特征,是多种不同的预设类型的口型的融合结果。优选的,所述加权运算可以是加权求和运算。
其中,所述多个记忆口型编码特征对应的不同口型类型,应尽可能覆盖实际应用场景中说话者可能出现的各种口型类型。例如,对于中文说话场景,应尽可能覆盖中文表达中的常见元音、辅音对应的口型。
在步骤S15的具体实施中,将所述音频编码特征、所述人脸图像编码特征以及所述融合口型特征,输入所述解码子模型,得到人脸生成图像。
需要指出的是,在现有技术中,通常直接基于音频编码特征和人脸图像编码特征获得人脸生成图像,也即,基于输入音频中包含的原始语音特征信息确定人脸生成图像表现出的口型。或者,在另一种容易想到的方案中,通过分别确定音频编码特征与不同的预设口型编码特征的相似度,并选取相似度最高的口型编码特征,结合人脸图像编码特征进行解码,得到人脸生成图像。然而,无论是采用原始语音特征信息,还是与原始语音特征信息相似度最高的预设口型特征信息,实质上均是依赖于单一的语音特征信息或口型特征信息确定人脸生成图像中的口型,容易导致人脸生成图像的口型与输入音频的匹配度不够高,或者口型不够标准自然。
相较而言,在本发明实施例中,考虑到大多数输入音频对应的口型与人类说话时的常见类型的口型的一种或多种的相关性较高,基于此原理,通过引入对应于不同类型的口型的多个记忆口型编码特征,获得最终的人脸生成图像。具体而言:将所述音频编码特征映射为权重向量,由于所述权重向量中的各个权重值可以准确表征驱动音频与记忆口型编码特征(对应于不同类型的真实口型)之间的相关性程度;然后通过加权融合,获得融合了多种不同的真实口型的融合口型特征。在后续解码操作中,除音频编码特征、人脸图像编码特征之外,还将所述融合口型特征作为解码输入数据之一。由此,在所述融合口型特征的作用下,可以生成和所述驱动音频准确匹配的人脸生成图像,即,所述人脸生成图像具有和所述驱动音频准确匹配的嘴部动态。进一步,通过加权融合处理还有助于获得更加标准、自然的口型。
参照图3,图3是训练得到图2所示人脸图像生成模型的流程图。训练流程具体可以包括步骤S31至步骤S33。
在步骤S31中,构建待训练模型,所述待训练模型包括:待训练图像编码子模型、待训练音频编码子模型、待训练音频映射子模型以及待训练解码子模型。
在步骤S32中,确定训练数据集,所述训练数据集包括多张下半部分被遮挡的人脸训练图像以及多帧训练音频。
其中,所述多张人脸训练图像(即,人脸图像训练数据集)与多帧训练音频一一对应。在具体实施中,可以对至少一个说话者的说话过程进行视频录制,然后基于录制得到的每段视频,分别提取音频流、图像流并进行采样以获得多张人脸训练图像以及多帧训练音频。
关于获取所述下半部分被遮挡的人脸训练图像与训练音频的方案及其各自的时长设置,可以参照图1所示模型推理过程中关于所述驱动音频及人脸图像的相关描述,此处不再赘述。
在步骤S33中,采用目标损失函数,将所述训练数据集输入所述待训练模型进行迭代训练,得到所述人脸图像生成模型。
其中,每轮迭代操作具体包括:将所述人脸训练图像输入所述待训练图像编码子模型,得到样本人脸图像编码特征,以及将所述训练音频输入所述待训练音频编码子模型,得到样本音频编码特征;所述样本音频编码特征输入所述待训练音频映射子模型,得到样本权重向量;采用所述样本权重向量,对所述多个记忆口型编码特征进行加权运算,融合样本口型编码特征;将所述样本音频编码特征、样本人脸图像编码特征以及所述融合样本口型编码特征,输入所述待训练解码子模型,得到当前轮迭代后的样本人脸生成图像。
关于模型训练过程中的每轮迭代操作,可以参照图1所示人脸图像生成方法中步骤S12至步骤S15的具体内容,此处不再赘述。
进一步地,所述目标损失函数是对L1损失函数、生成对抗网络GAN损失函数以及感知损失函数中的至少两项进行加权运算得到的。
在本发明实施例中,通过采用多种损失函数加权运算得到的融合损失函数,作为训练模型损失函数,相较于采用单一损失函数,可以对不同类型的损失函数优势互补,提高模型的训练效果。进一步,可以结合实际需求及训练效果,适当设置不同损失函数的权重值,从而提高训练的针对性和精细化程度。
在一个具体实施例中,所述目标损失函数是对L1损失函数、生成对抗网络损失函数以及感知损失函数这三项损失函数进行加权求和得到的;其中,所述L1损失函数的权重值,大于所述生成对抗网络GAN损失函数权重值和感知损失函数的权重值。
参照图4,图4是本发明实施例中另一种人脸图像生成方法的部分流程图。所述另一种人脸图像生成方法可以包括图1所示步骤S11至步骤S15,还可以包括步骤S41至步骤S43。其中,所述步骤S41至步骤S43可以在步骤S14之前执行。以下对与图1中的不同内容进行说明。
在步骤S41中,获取多张样本人脸图像,所述多张样本人脸图像具有不同的预设类型的口型。
其中,所述多张样本人脸图像具有的不同的预设类型的口型,应尽可能覆盖实际应用场景中说话者可能出现的各种口型类型。例如,对于中文说话场景,应尽可能覆盖中文表达中的常见元音、辅音对应的口型。
在步骤S42中,对所述多张样本人脸图像的下半部分分别进行图像编码,得到对应的多个样本口型编码特征。
需要指出的是,由于所述多张样本人脸图像的下半部分是用于获得所述多个记忆口型编码特征,因此,为了提高模型生成的人脸生成图像的细致度和自然度,用于编码的所述样本人脸图像的下半部分的区域大小,应当尽可能与图1中的模型推理过程中所述人脸图像中被遮挡的下半部分的区域大小保持一致。
进一步地,所述步骤S42中进行图像编码的操作可以包括:确定编解码模型,所述编解码模型包含样本图像编码子模型和样本图像解码子模型;采用所述多张样本人脸图像,对所述编解码模型进行训练,得到训练后的样本图像编码子模型和训练后的样本图像解码子模型;将所述多张样本人脸图像的下半部分,输入所述训练后的样本图像编码子模型进行图像编码。
更进一步地,上述图像编码操作满足以下一项或多项条件:
条件一,所述多张样本人脸图像选自:用于训练得到所述人脸图像生成模型的人脸图像训练数据集。
条件二,所述编解码模型包含的样本图像编码子模型与所述人脸图像生成模型包含的图像编码子模型的模型架构一致;
条件三,所述编解码模型包含的样本图像解码子模型的模型架构与所述人脸图像生成模型包含的解码子模型架构一致。
在本发明实施例中,由于对所述样本人脸图像的下半部分编码的目的是获得所述记忆口型编码特征,而下半部分被遮挡的人脸训练图像(即,除下半部分之外的人脸其余部分)是为了获得人脸图像编码特征。在后续解码过程中,需要所述记忆口型编码特征和所述人脸图像编码特征进行组合才能获得完整的人脸生成图像。因此,通过直接利用训练模型用的人脸图像训练数据集获得所述记忆口型编码特征,一方面有利于节省数据获取成本,另一方面有利于模型生成更加完整、细致,各部位衔接自然的人脸生成图像,避免人脸部分区域出现突兀、不自然状态。
进一步,在所述步骤S42的图像编码操作中,通过沿用所述人脸图像生成模型中的图像编码子模型以及解码子模型的模型架构,也是为了使得后续结合所述记忆口型编码特征和人脸图像编码特征进行解码得到的人脸生成图像效果更加自然、完整。
在步骤S43中,对所述多个样本口型编码特征进行聚类,将作为聚类的中心的各个样本口型编码特征,确定为所述多个记忆口型编码特征。
在具体实施中,聚类的方法可以选自但不限于:K-Means聚类、均值偏移(Mean-Shift)聚类等常规聚类算法。
由于所述融合口型特征是对所述多个记忆口型编码特征进行加权运算获得,因此,所述记忆口型编码特征的精度可以直接决定获得的融合口型特征的精度,进而影响人脸生成图像的质量。因此,在本发明实施例中,结合采用聚类方式,实现对所述多个样本口型编码特征对应的口型进行分类,同一聚类内的各个样本口型编码特征对应的口型相近或相同。由于聚类的中心能够反映聚类中的各个样本口型编码特征的平均情况,因此,相较于直接采用对多张不同口型的样本人脸图像编码得到的多个样本口型编码特征,或者,相较于从每个聚类中随机选取样本口型编码特征,作为所述多个记忆口型编码特征,采用本实施方案有助于获得更具典型性和普遍性的记忆口型编码特征,进而提高后续生成的人脸生成图像的口型标准度和自然度,获得更高质量的人脸生成图像。
图5是本发明实施例中一种人脸图像生成装置的结构示意图。所述人脸图像生成装置可以包括:
模型确定模块51,用于确定人脸图像生成模型,所述人脸图像生成模型包括图像编码子模型、音频编码子模型、音频映射子模型以及解码子模型;
编码模块52,用于将驱动音频输入所述音频编码子模型,得到音频编码特征,以及将下半部分被遮挡的人脸图像输入所述图像编码子模型,得到人脸图像编码特征;
映射模块53,用于将所述音频编码特征输入所述音频映射子模型,得到权重向量;
口型特征融合模块54,用于采用所述权重向量,对预设的多个记忆口型编码特征进行加权运算,得到融合口型特征;
人脸图像生成模块55,用于将所述音频编码特征、所述人脸图像编码特征以及所述融合口型特征,输入所述解码子模型,得到人脸生成图像。
关于该人脸图像生成装置的原理、具体实现和有益效果请参照前文及图1至图4示出的关于人脸图像生成方法的相关描述,此处不再赘述。
本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行上述图1至图4示出的人脸图像生成方法的步骤。所述计算机可读存储介质可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器,还可以包括光盘、机械硬盘、固态硬盘等。
具体地,在本发明实施例中,所述处理器可以为中央处理单元(centralprocessing unit,简称CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,简称DSP)、专用集成电路(application specificintegrated circuit,简称ASIC)、现成可编程门阵列(field programmable gate array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
还应理解,本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,简称ROM)、可编程只读存储器(programmable ROM,简称PROM)、可擦除可编程只读存储器(erasable PROM,简称EPROM)、电可擦除可编程只读存储器(electricallyEPROM,简称EEPROM)或闪存。易失性存储器可以是随机存取存储器(random accessmemory,简称RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的随机存取存储器(random access memory,简称RAM)可用,例如静态随机存取存储器(staticRAM,简称SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(synchronousDRAM,简称SDRAM)、双倍数据速率同步动态随机存取存储器(doubledata rate SDRAM,简称DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,简称ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,简称SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,简称DR RAM)。
本发明实施例还提供了一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行上述图1至图4示出的关于人脸图像生成方法的步骤。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,表示前后关联对象是一种“或”的关系。
本申请实施例中出现的“多个”是指两个或两个以上。
本申请实施例中出现的第一、第二等描述,仅作示意与区分描述对象之用,没有次序之分,也不表示本申请实施例中对设备个数的特别限定,不能构成对本申请实施例的任何限制。
需要指出的是,本实施例中各个步骤的序号并不代表对各个步骤的执行顺序的限定。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (11)

1.一种人脸图像生成方法,其特征在于,包括:
确定人脸图像生成模型,所述人脸图像生成模型包括图像编码子模型、音频编码子模型、音频映射子模型以及解码子模型;
将驱动音频输入所述音频编码子模型,得到音频编码特征,以及将下半部分被遮挡的人脸图像输入所述图像编码子模型,得到人脸图像编码特征;
将所述音频编码特征输入所述音频映射子模型,得到权重向量;
采用所述权重向量,对预设的多个记忆口型编码特征进行加权运算,得到融合口型特征,其中,所述多个记忆口型编码特征对应于不同类型的口型;将所述音频编码特征、所述人脸图像编码特征以及所述融合口型特征,输入所述解码子模型,得到人脸生成图像。
2.根据权利要求1所述的方法,其特征在于,在采用所述权重向量,对预设的多个记忆口型编码特征进行加权运算,得到融合口型特征之前,所述方法还包括:
获取多张样本人脸图像,所述多张样本人脸图像具有不同的预设类型的口型;
对所述多张样本人脸图像的下半部分分别进行图像编码,得到对应的多个样本口型编码特征;
对所述多个样本口型编码特征进行聚类,将作为聚类的中心的各个样本口型编码特征,确定为所述多个记忆口型编码特征。
3.根据权利要求2所述的方法,其特征在于,对每张所述样本人脸图像的下半部分进行图像编码,包括:
确定编解码模型,所述编解码模型包含样本图像编码子模型和样本图像解码子模型;
采用所述多张样本人脸图像,对所述编解码模型进行训练,得到训练后的样本图像编码子模型和训练后的样本图像解码子模型;
将所述多张样本人脸图像的下半部分,输入所述训练后的样本图像编码子模型进行图像编码。
4.根据权利要求3所述的方法,其特征在于,满足以下一项或多项:
所述多张样本人脸图像选自:用于训练得到所述人脸图像生成模型的人脸图像训练数据集;
所述编解码模型包含的样本图像编码子模型与所述人脸图像生成模型包含的图像编码子模型的模型架构一致;以及,
所述编解码模型包含的样本图像解码子模型的模型架构与所述人脸图像生成模型包含的解码子模型架构一致。
5.根据权利要求1所述的方法,其特征在于,所述确定人脸图像生成模型,包括:
构建待训练模型,所述待训练模型包括:待训练图像编码子模型、待训练音频编码子模型、待训练音频映射子模型以及待训练解码子模型;
确定训练数据集,所述训练数据集包括多张下半部分被遮挡的人脸训练图像以及多帧训练音频;
采用目标损失函数,将所述训练数据集输入所述待训练模型进行迭代训练,得到所述人脸图像生成模型;
其中,每轮迭代操作包括:
将所述人脸训练图像输入所述待训练图像编码子模型,得到样本人脸图像编码特征,以及将所述训练音频输入所述待训练音频编码子模型,得到样本音频编码特征;
所述样本音频编码特征输入所述待训练音频映射子模型,得到样本权重向量;
采用所述样本权重向量,对所述多个记忆口型编码特征进行加权运算,融合样本口型编码特征;
将所述样本音频编码特征、样本人脸图像编码特征以及所述融合样本口型编码特征,输入所述待训练解码子模型,得到当前轮迭代后的样本人脸生成图像。
6.根据权利要求5所述的方法,其特征在于,所述目标损失函数是对L1损失函数、生成对抗网络GAN损失函数以及感知损失函数中的至少两项进行加权运算得到的。
7.根据权利要求1所述的方法,其特征在于,所述权重向量满足以下一项或多项:
所述权重向量中的多个权重值之和为1;
所述权重向量中的多个权重与所述多个记忆口型编码特征一一对应。
8.根据权利要求1所述的方法,其特征在于,输入所述音频编码子模型的驱动音频的时长,与输入所述图像编码子模型的人脸图像的时长的比值大于等于5。
9.一种人脸图像生成装置,其特征在于,包括:
模型确定模块,用于确定人脸图像生成模型,所述人脸图像生成模型包括图像编码子模型、音频编码子模型、音频映射子模型以及解码子模型;
编码模块,用于将驱动音频输入所述音频编码子模型,得到音频编码特征,以及将下半部分被遮挡的人脸图像输入所述图像编码子模型,得到人脸图像编码特征;
映射模块,用于将所述音频编码特征输入所述音频映射子模型,得到权重向量;
口型特征融合模块,用于采用所述权重向量,对预设的多个记忆口型编码特征进行加权运算,得到融合口型特征;
人脸图像生成模块,用于将所述音频编码特征、所述人脸图像编码特征以及所述融合口型特征,输入所述解码子模型,得到人脸生成图像。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1至8任一项所述人脸图像生成方法的步骤。
11.一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时执行权利要求1至8任一项所述人脸图像生成方法的步骤。
CN202311085684.5A 2023-08-25 2023-08-25 人脸图像生成方法及装置、计算机可读存储介质、终端 Active CN117372553B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311085684.5A CN117372553B (zh) 2023-08-25 2023-08-25 人脸图像生成方法及装置、计算机可读存储介质、终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311085684.5A CN117372553B (zh) 2023-08-25 2023-08-25 人脸图像生成方法及装置、计算机可读存储介质、终端

Publications (2)

Publication Number Publication Date
CN117372553A CN117372553A (zh) 2024-01-09
CN117372553B true CN117372553B (zh) 2024-05-10

Family

ID=89399045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311085684.5A Active CN117372553B (zh) 2023-08-25 2023-08-25 人脸图像生成方法及装置、计算机可读存储介质、终端

Country Status (1)

Country Link
CN (1) CN117372553B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112562722A (zh) * 2020-12-01 2021-03-26 新华智云科技有限公司 基于语义的音频驱动数字人生成方法及系统
CN113948105A (zh) * 2021-09-30 2022-01-18 深圳追一科技有限公司 基于语音的图像生成方法、装置、设备及介质
CN113987269A (zh) * 2021-09-30 2022-01-28 深圳追一科技有限公司 数字人视频生成方法、装置、电子设备和存储介质
CN116597857A (zh) * 2023-03-30 2023-08-15 广州赛灵力科技有限公司 一种语音驱动图像的方法、系统、装置及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2516965B (en) * 2013-08-08 2018-01-31 Toshiba Res Europe Limited Synthetic audiovisual storyteller
EP3965102A1 (en) * 2020-08-23 2022-03-09 Tata Consultancy Services Limited Method and system for generating 2d animated lip images synchronizing to an audio signal

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112562722A (zh) * 2020-12-01 2021-03-26 新华智云科技有限公司 基于语义的音频驱动数字人生成方法及系统
CN113948105A (zh) * 2021-09-30 2022-01-18 深圳追一科技有限公司 基于语音的图像生成方法、装置、设备及介质
CN113987269A (zh) * 2021-09-30 2022-01-28 深圳追一科技有限公司 数字人视频生成方法、装置、电子设备和存储介质
CN116597857A (zh) * 2023-03-30 2023-08-15 广州赛灵力科技有限公司 一种语音驱动图像的方法、系统、装置及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Generative Image Steganography Scheme Based on Deep Learning;Jingyi Qiu;《IEEE》;20230209;全文 *
基于口型变化的音视频信息处理研究;王一鸣;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20220615;全文 *

Also Published As

Publication number Publication date
CN117372553A (zh) 2024-01-09

Similar Documents

Publication Publication Date Title
Ephrat et al. Vid2speech: speech reconstruction from silent video
Zhou et al. A compact representation of visual speech data using latent variables
CN112927712A (zh) 视频生成方法、装置和电子设备
Yang et al. Audio-visual speech codecs: Rethinking audio-visual speech enhancement by re-synthesis
BRPI0904540A2 (pt) método de sìntese de movimento labial para animação de cabeças virtuais através do processamento de voz em dispositivos portáteis
CN113077537B (zh) 一种视频生成方法、存储介质及设备
CN113299312B (zh) 一种图像生成方法、装置、设备以及存储介质
US20220375190A1 (en) Device and method for generating speech video
CN111563422A (zh) 基于双模态情绪识别网络的服务评价获取方法及其装置
EP4207195A1 (en) Speech separation method, electronic device, chip and computer-readable storage medium
CN114187547A (zh) 目标视频的输出方法及装置、存储介质及电子装置
CN113570689B (zh) 人像卡通化方法、装置、介质和计算设备
Hou et al. Audio-visual speech enhancement based on multimodal deep convolutional neural network
WO2021034463A1 (en) Methods and systems for image and voice processing
CN113516990A (zh) 一种语音增强方法、训练神经网络的方法以及相关设备
Ma et al. Dreamtalk: When expressive talking head generation meets diffusion probabilistic models
CN116597857A (zh) 一种语音驱动图像的方法、系统、装置及存储介质
CN111553899A (zh) 一种基于音视频的帕金森非接触式智能检测方法及系统
Kang et al. Expression-preserving face frontalization improves visually assisted speech processing
CN117593473A (zh) 动作图像与视频生成方法、设备与存储介质
CN117372553B (zh) 人脸图像生成方法及装置、计算机可读存储介质、终端
CN117440114A (zh) 一种虚拟形象视频生成方法、装置、设备及介质
CN116757923A (zh) 一种图像生成方法、装置、电子设备及存储介质
CN115883753A (zh) 视频的生成方法、装置、计算设备及存储介质
Narwekar et al. PRAV: A Phonetically Rich Audio Visual Corpus.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant