CN117974850A

CN117974850A - 基于音频驱动的图像处理方法、设备和存储介质

Info

Publication number: CN117974850A
Application number: CN202410388315.1A
Authority: CN
Inventors: 张森乐; 康波; 庞晓磊; 吴玲; 孟祥飞; 刘腾萧; 李长松; 蒋博为
Original assignee: National Supercomputer Center In Tianjin
Current assignee: National Supercomputer Center In Tianjin
Priority date: 2024-04-01
Filing date: 2024-04-01
Publication date: 2024-05-03
Anticipated expiration: 2044-04-01
Also published as: CN117974850B

Abstract

本发明涉及图像处理领域，公开了一种基于音频驱动的图像处理方法、设备和存储介质，该方法包括：获取初始图像序列以及初始音频；其中，初始图像序列中的嘴部区域的变化与初始音频不对应；将初始图像序列以及初始音频输入至预先训练完成的嘴部调整模型中，输出与初始音频对应的目标图像序列；其中，嘴部调整模型基于样本视频中的样本图像序列以及样本音频训练得到，嘴部调整模型包括面部特征提取模块、音频特征提取模块、特征融合模块以及图像重建模块，目标图像序列中的嘴部区域的变化与初始音频相对应。通过本发明的技术方案，能够提高嘴型变化的连续性以及自然性，提高图像序列和音频的同步性，提高图像序列的清晰度。

Description

基于音频驱动的图像处理方法、设备和存储介质

技术领域

本发明涉及图像处理领域，尤其涉及一种基于音频驱动的图像处理方法、设备和存储介质。

背景技术

嘴型生成技术是一种基于人工智能和计算机图像处理的技术，通过分析语音输入，生成与之相匹配的嘴型运动序列，从而实现逼真的嘴型合成。嘴型生成技术应用于包括动画制作、语音合成、虚拟角色表情生成、辅助听障人士的口语理解等多个领域。

随着虚拟角色、人机交互和增强现实等领域的发展，对于更加逼真的语音合成和嘴型生成需求逐渐增加。现有技术中，大多通过音素映射或模型训练等方法合成嘴型，但这些方法存在生成的嘴型不自然、不高清、不连续等缺点，并且存在嘴型变化与音频不同步的问题。

有鉴于此，特提出本发明。

发明内容

为了解决上述技术问题，本发明提供了一种基于音频驱动的图像处理方法、设备和存储介质，以提高嘴型变化的连续性以及自然性，提高图像序列和音频的同步性，提高图像序列的清晰度。

本发明实施例提供了一种基于音频驱动的图像处理方法，该方法包括：

获取初始图像序列以及初始音频；其中，所述初始图像序列中包括面部区域，所述面部区域包括嘴部区域；所述初始图像序列中的嘴部区域的变化与所述初始音频不对应；

将所述初始图像序列以及所述初始音频输入至预先训练完成的嘴部调整模型中，输出与所述初始音频对应的目标图像序列；其中，所述嘴部调整模型基于样本视频中的样本图像序列以及样本音频训练得到，所述嘴部调整模型包括面部特征提取模块、音频特征提取模块、特征融合模块以及图像重建模块，所述目标图像序列中的嘴部区域的变化与所述初始音频相对应。

本发明实施例提供了一种电子设备，所述电子设备包括：

处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行任一实施例所述的基于音频驱动的图像处理方法的步骤。

本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行任一实施例所述的基于音频驱动的图像处理方法的步骤。

本发明实施例具有以下技术效果：

通过获取初始图像序列以及初始音频，将初始图像序列以及初始音频输入至预先训练完成的嘴部调整模型中，输出初始音频对应的目标图像序列，以通过嘴部调整模型中的面部特征提取模块、音频特征提取模块、特征融合模块以及图像重建模块，得到嘴部区域的变化与初始音频相对应的目标图像序列，实现了提高嘴型变化的连续性以及自然性的效果。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于音频驱动的图像处理方法的流程图；

图2是本发明实施例提供的一种嘴部调整模型的训练流程图；

图3是本发明实施例提供的面部特征提取模块的结构示意图；

图4是本发明实施例提供的目标图像生成模型的训练过程示意图；

图5是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行清楚、完整的描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例，都属于本发明所保护的范围。

实施例一：

本发明实施例提供的基于音频驱动的图像处理方法，主要适用于将初始图像序列中面部区域的嘴部区域处理为变化情况与初始音频相对应的情况。本发明实施例提供的基于音频驱动的图像处理方法可以由电子设备执行。

图1是本发明实施例提供的一种基于音频驱动的图像处理方法的流程图。参见图1，该基于音频驱动的图像处理方法具体包括：

S110、获取初始图像序列以及初始音频。

其中，初始图像序列中包括面部区域，面部区域包括嘴部区域、初始图像序列中的嘴部区域的变化与初始音频不对应。初始图像序列可以理解为连续的多帧初始图像，用于后续调整嘴部区域的变化情况，使之与初始音频相对应。初始音频是初始图像序列中嘴部区域的变化情况的调整目标，用于驱动初始图像序列处理。

具体的，获取作为基准的初始音频，以及需要按照初始音频驱动调整的连续图像序列，即初始图像序列，以通过后续基于初始音频对初始图像序列中的嘴部区域进行调整，使嘴部区域的连续变化与初始音频相对应。

S120、将初始图像序列以及初始音频输入至预先训练完成的嘴部调整模型中，输出与初始音频对应的目标图像序列。

其中，样本视频中也包含面部区域，面部区域中也包含嘴部区域。样本视频可以分离成样本图像序列以及样本音频，可以理解的是，样本图像序列中嘴部区域的变化与样本音频相对应。嘴部调整模型基于样本视频中的样本图像序列以及样本音频训练得到，嘴部调整模型用于将初始图像序列处理成与初始音频相对应的目标图像序列。目标图像序列是嘴部调整模型的输出，目标图像序列是在初始图像序列的基础上进行调整处理的，目标图像序列中的嘴部区域的变化与初始音频相对应。

具体的，将初始图像序列以及初始音频作为预先训练完成的嘴部调整模型的输入，以基于初始音频驱动调整初始图像序列，输出与初始音频对应的目标图像序列。

嘴部调整模型包括面部特征提取模块、音频特征提取模块、特征融合模块以及图像生成模块，在上述示例的基础上，如图2所示，预先训练完成的嘴部调整模型可以基于如下各步骤训练得到：

步骤一、将样本视频中的样本图像序列输入至面部特征提取模块中，得到样本面部特征。

其中，面部特征提取模块是用于提取样本图像序列中面部相关信息的模型所构成的模块。样本面部特征可以描述肤色、角度、嘴部位置、嘴部开合大小、嘴唇颜色等，样本面部特征是面部特征提取模块的输出结果。

具体的，将样本视频中的样本图像序列作为输入，输入至面部特征提取模块中，进行面部区域的相关信息的提取，可以得到用于描述样本图像序列中面部区域的相关信息的样本面部特征。

在上述示例的基础上，可以通过下述方式来将样本视频中的样本图像序列输入至面部特征提取模块中，得到样本面部特征：

针对每个样本图像序列，按照预设帧数对样本图像序列进行拆分，得到多个拆分图像序列；

对各拆分图像序列中的面部区域进行识别，并按照预设形状裁剪面部区域，并对裁剪得到的各面部区域进行重采样处理，得到各样本面部序列；

将各样本面部序列依次输入至第一前置卷积块、多个第一核心特征提取块以及第一后置处理块中，得到样本面部特征。

其中，预设帧数是预先设定的用于拆分图像序列的帧数，例如10帧。拆分图像序列是按照预设帧数对样本图像序列进行依次拆分得到各图像序列。预设形状是预先设定的用于框出面部区域的形状，例如正方形。样本面部序列是按照面部区域裁剪并通过重采样调整尺寸后的图像序列。第一前置卷积块、多个第一核心特征提取块以及第一后置处理块是用于对样本面部序列中的面部相关信息进行提取的各模型块。

具体的，针对每个样本图像序列，都可以按照预设帧数进行拆分，得到多个拆分图像序列，每个拆分图像序列中包含预设帧数的图像帧。进一步的，针对每个拆分图像序列，对其中的面部区域进行识别，基于预设形状对面部区域进行裁剪，并对裁剪得到的各面部区域进行重采样处理，以调整至目标尺寸，得到样本面部序列，以用于有针对性的提取特征。将各样本面部序列输入至第一前置卷积块，将第一前置卷积块的输出输入至多个第一核心特征提取块，其中，各第一核心特征提取块之间是依次串联的，进而，将多个第一核心特征提取块中最后一个第一核心特征提取块的输出输入至第一后置处理块中，第一后置处理块的输出即为样本面部特征。

在上述示例的基础上，第一前置卷积块包括依次连接的第一卷积层、第二卷积层以及第三卷积层，第一卷积层中卷积核的尺寸与第二卷积层中卷积核的尺寸相同，第三卷积层中卷积核的尺寸小于第二卷积层中卷积核的尺寸。

在上述示例的基础上，每个第一核心特征提取块包括第一特征提取子块以及至少两个第二特征提取子块，第一特征提取子块由多个深度可分离卷积层组成，第二特征提取子块由多头注意力机制和前馈神经网络组成。

在上述示例的基础上，第一后置处理块包括依次连接的最大池化层、全连接层和输出层。

在上述示例的基础上，每个第一特征提取子块的输入和第一特征提取子块中最后一个深度可分离卷积层的输出进行残差连接，得到第一特征提取子块的输出；第二特征提取子块的输入和多头注意力机制的输出进行残差连接，得到前馈神经网络的输入；前馈神经网络的输入和前馈神经网络的输出进行残差连接，得到第二特征提取子块的输出。

示例性的，图3为面部特征提取模块的结构示意图。输入层可以是将对样本图像序列进行拆分、面部区域识别、裁剪以及重采样，以得到各样本面部序列作为输入。与输入层连接的第一个虚线框为第一前置卷积块，第一前置卷积块由三个卷积层组成，每个卷积层中卷积核的大小根据实际场景需求进行配置，具体可以是，其中，第一卷积层中的卷积核与第二卷积层中的卷积核的大小一致，第三卷积层中的卷积核比第二卷积层中的卷积核小2。如图3所示，该第一前置卷积块中包括依次连接的一个卷积核大小为5×5的第一卷积层，一个卷积核大小为5×5的第二卷积层以及一个卷积核大小为3×3的第三卷积层。第一前置卷积块的输出连接至多个第一核心特征提取块，如图3所示，包含5个第一核心特征提取块，每个第一核心特征提取块的输入为上一层的输出。在实际场景应用中，需要近实时的进行嘴型的处理和输出，为了加快模型推理速度，采用深度可分离卷积。每个第一核心特征提取块中包含一个第一特征提取子块以及两个第二特征提取子块，第一特征提取子块由三个深度可分离卷积层组成，依次为卷积核大小为3×3的深度可分离卷积层、卷积核大小为5×5的深度可分离卷积层和卷积核大小为3×3的深度可分离卷积层，卷积核的大小可以根据实际场景需求进行配置。同时，第一特征提取子块的输入与输出进行残差连接，以保留部分输入信息。各第二特征提取子块均由多头注意力机制和前馈神经网络组成，用于高级特征的提取，图3中的两个第二特征提取子块结构一致。最后一个第二特征提取子块的输出连接至第一后置处理块，第一后置处理块包括依次连接的最大池化层、全连接层和输出层。

步骤二、将与样本图像序列对应的样本音频输入至音频特征提取模块中，得到样本音频特征。

其中，音频特征提取模块是用于从样本音频中提取重要的声音特征的模型所构成的模块。样本音频特征可以描述重要的声音特征，样本音频特征是音频特征提取模块的输出结果。

具体的，将样本视频中的样本音频作为输入，输入至音频特征提取模块中，进行重要的声音特征的提取，可以得到用于描述样本音频中重要的声音特征信息，即样本音频特征。

在上述示例的基础上，可以通过下述方式来将与样本图像序列对应的样本音频输入至音频特征提取模块中，得到样本音频特征：

针对每个样本音频，按照预设窗口大小以及预设步长对样本音频进行拆分，得到多个拆分音频；

针对每个拆分音频，对拆分音频进行傅里叶变换得到第一变换频谱图，基于梅尔滤波器组对第一变换频谱图进行处理，得到第二变换频谱图序列，对第二变换频谱图序列依次进行对数处理以及离散余弦变换，得到样本音频对应的音频图谱序列；

将音频图谱序列依次输入至第二前置卷积块、第二核心特征提取块以及第二后置处理块中，得到样本音频特征。

其中，预设窗口大小是预先构建的滑动窗口的大小，例如预设窗口大小可以是20-30毫秒。预设步长是预先设置的滑动窗口的移动步长，由此可知，相邻的拆分音频之间有重叠。拆分音频是按照预设窗口大小以及预设步长对样本音频进行依次拆分得到各短时音频。第一变换频谱图是对拆分音频进行傅里叶变换后的频谱图。梅尔滤波器组包含多个梅尔滤波器，这些梅尔滤波器的频率划分是根据梅尔标度设计的。第二变换频谱图序列是通过一组梅尔滤波器对第一变换频谱图进行处理得到的滤波结果。音频图谱序列是对第二变换频谱图序列依次进行对数处理以及离散余弦变换得到的图谱序列。第二前置卷积块、多个第二核心特征提取块以及第二后置处理块是用于对音频图谱序列中的声音相关信息进行提取的各模型块。第二前置卷积块与第一前置卷积块的结构相同，第二核心特征提取块与第一核心特征提取块的结构相同，第二后置处理块与第一后置处理块的结构相同。

具体的，针对每个样本音频，都可以按照预设窗口大小以及预设步长进行拆分，得到多个拆分音频，每个拆分音频的长度为预设窗口大小，相邻的拆分音频之间有重叠。进一步的，针对每个拆分音频，进行傅里叶变换，将时域信号转换为频域信号，得到第一变换频谱图。将第一变换频谱图通过梅尔滤波器组进行滤波，得到第二变换频谱图序列，进而，对梅尔滤波器组输出的第二变换频谱图序列取对数，以模拟人耳对音强度的非线性感知，进而，对取对数后的结果进行离散余弦变换，只保留部分DCT（Discrete Cosine Transform，离散余弦变换）系数，即为该样本音频对应的音频图谱序列。将各音频图谱序列输入至第二前置卷积块，将第二前置卷积块的输出输入至多个第二核心特征提取块，其中，各第二核心特征提取块之间是依次串联的，进而，将多个第二核心特征提取块中最后一个第二核心特征提取块的输出输入至第二后置处理块中，第二后置处理块的输出即为样本音频特征。

步骤三、将样本面部特征以及样本音频特征，输入至特征融合模块，得到样本融合特征。

其中，特征融合模块是用于进行特征融合处理的模块。样本融合特征是对样本面部特征进行特征融合后的结果，即特征融合模块的输出。

具体的，基于样本面部特征以及样本音频特征，通过特征融合模块进行特征融合。特征融合模块中为样本面部特征以及样本音频特征设置不同的权重策略，这些权重可以通过训练来获得，以最大程度地提高任务性能。

步骤四、将样本融合特征输入至图像重建模块，得到图像重建序列。

其中，图像重建模块是用于对编码后的融合特征进行图像重建得到图像序列的模块。图像重建序列是将样本融合特征进行重建得到的图像序列，是图像重建模块对样本融合特征处理后的输出结果。

具体的，通过图像重建模块对样本融合特征进行处理，还原出样本音频对应的图像序列，即图像重建序列。

可以理解的是，图像重建模块相当于解码器，可以从编码向量（样本融合特征）中生成与原始输入图像（样本图像序列）尽可能相似的输出图像（图像重建序列），同时结合音频特征，使生成的口型更加接近真实语音。

步骤五、基于图像重建序列、样本图像序列以及嘴部调整模型的损失函数，确定嘴部调整模型的目标损失。

其中，损失函数是预先确定的用于判断图像重建序列和样本图像序列之间差别的函数。目标损失用于描述图像重建序列和样本图像序列之间差别。

具体的，通过嘴部调整模型的损失函数对图像重建序列和样本图像序列进行损失计算，得到目标损失，以衡量嘴部调整模型的效果。

步骤六、基于目标损失对嘴部调整模型进行模型参数调整，得到训练完成的嘴部调整模型。

具体的，若目标损失符合损失要求，则说明嘴部调整模型的处理效果已经符合需求，可以确定模型训练完成，因此，将此时的嘴部调整模型确定为训练完成的嘴部调整模型。若目标损失符合损失要求，则说明嘴部调整模型的处理效果还不符合需求，因此，需要重新调整嘴部调整模型中的各模型参数，并重新计算目标损失进行判断，以得到训练完成的嘴部调整模型。

在上述示例的基础上，在将初始图像序列以及初始音频输入至预先训练完成的嘴部调整模型中，输出与初始音频对应的目标图像序列之后，还可以对目标图像序列进行进一步的优化处理，具体可以是：

将目标图像序列输入至目标图像生成模型，得到图像矫正序列。

其中，目标图像生成模型是对图像序列进行矫正的模块。目标图像生成模型根据样本图像序列以及样本图像序列对应的图像重建序列对初始图像生成模型训练得到，图像重建序列为通过嘴部调整模型对样本图像序列进行处理得到的图像序列。初始图像生成模型是生成对抗网络，目标图像生成模型是训练完成的生成对抗网络中的生成器部分。图像矫正序列是对目标图像序列进行进一步矫正处理后提高图像质量所得到的图像序列。

具体的，通过目标图像生成模型对目标图像序列进行优化处理，得到图像矫正序列，可以提高图像序列的质量以及准确性，并提高与音频的同步性。

在上述示例的基础上，初始图像生成模型包括生成器和判别器，目标图像生成模型基于如下方式训练得到：

基于各样本图像序列以及各样本图像序列对应的图像重建序列构建训练样本集；

将训练样本集中的图像重建序列输入至生成器中，得到样本矫正序列；

将样本矫正序列以及与样本矫正序列对应的样本图像序列输入至判别器中，得到输出损失；

根据输出损失对生成器和判别器进行网络参数调整，将调整得到的生成器作为目标图像生成模型。

其中，训练样本集包含多组训练样本，每组训练样本中包括一个样本图像序列以及与该样本图像序列对应的图像重建序列。样本矫正序列是基于生成器对图像重建序列进行矫正优化后的图像序列。输出损失是样本图像序列与样本矫正序列之间的损失。

具体的，基于各样本图像序列以及各样本图像序列对应的图像重建序列构建训练样本集。将训练样本集中的图像重建序列输入至生成器中，输出样本矫正序列。将样本矫正序列以及与样本矫正序列对应的样本图像序列输入至判别器中，得到输出损失，通过判别器判断生成的样本矫正序列真实程度。将输出损失传递至生成器和判别器，不断训练优化网络参数，通过训练，最终得到可以提升视频图像序列质量的生成器，即目标图像生成模型，目标图像生成模型的训练过程示意图如图4所示，目标图像生成模型用以提升视频图像序列的准确性以及与音频的同步性。

进一步的，可以将生成的目标图像序列或者经过矫正后的图像矫正序列与初始音频结合，得到目标视频。

本实施例具有以下技术效果：通过获取初始图像序列以及初始音频，将初始图像序列以及初始音频输入至预先训练完成的嘴部调整模型中，输出初始音频对应的目标图像序列，以通过嘴部调整模型中的面部特征提取模块、音频特征提取模块、特征融合模块以及图像重建模块，得到嘴部区域的变化与初始音频相对应的目标图像序列，实现了提高嘴型变化的连续性以及自然性，提高图像序列和音频的同步性，提高图像序列的清晰度的效果。

示例性的，以一段带有人物说话的视频图像序列（初始图像序列）和一段音频序列（初始音频）作为输入。首先，通过面部检测模块和面部增强模块，可以定位面部区域并提升输入的初始图像序列的画质。通过音频去噪模块和人声提升模块，可以去除音频中的无效背景音及杂音，并提升音频中人声的质量。然后，通过嘴部调整模型中的面部特征提取模块和音频特征提取模块，分别提取对应图像序列特征和音频序列特征。接着，将上述图像序列特征和音频序列特征进行特征级融合，然后输入嘴部调整模型中的图像重建模块，输出重建图像序列，经过音频图像矫正模块（目标图像生成模型）和图像像素提升模块，得到高清嘴型动画，解决了现有技术生成的图像序列的嘴型不自然、不高清、不连续等问题。

上述提及的各模型可以通过下述方式训练得到：

①数据集制作及预处理：收集视频数据，制作高清视频数据集（视频可以分解为样本图像序列和样本音频），例如：收集7万多个人物口播视频，每个视频片段的时长均大于1分钟。每个视频片段中，有且只有一个人物。视频对应的样本图像序列中的人脸覆盖不同的脸型，包括圆形脸型、方形脸型、长形脸型、椭圆形脸型、菱形脸型等。视频对应的样本图像序列中的人脸角度范围为[-90°,90°]。视频对应的样本图像序列中的人物的肤色包括黑色、深褐色、棕色、黄褐色、橄榄色、橙褐色、白色、棕红色等。视频对应的样本图像序列的分辨率为1920x1080，且面部区域在视频中的像素占比大于90000个像素点。通过收集大量且丰富的面部区域数据，以保证后续训练出的模型有用强大的泛化能力。标准化分辨率、帧率和编解码格式，对齐音频和图像序列的时间戳，以确保数据的准确性。针对样本音频，去除噪音、标准化音频的采样率和位深度，以确保一致性。

②面部检测模块和面部增强模块：对上述步骤中处理后的样本图像序列进行面部检测，以确定面部区域在样本图像序列中的像素占比和位置，并将面部区域裁剪出来并保存。基于面部增强模块，对面部检测模块得到的图像的质量、清晰度进行提升。同时，去除图像中的噪声、提高图像的对比度、增强颜色饱和度、改善照明、平滑肤色，以减少数据间的差异。

③音频去噪模块和人声提升模块：首先，需要对输入样本音频进行噪声检测和估计，通过噪声检测算法可以确定信号中的噪声分量，而噪声估计算法可以估计噪声的功率谱密度，根据检测到的噪声分量，可以谱减法来消除噪声。在消除噪声的同时，还需要对人声进行提升，以保留原始语音内容。通过声音动态范围控制，在不引入额外失真的情况下，提高人声信号的强度和清晰度。同时，使用自适应滤波器、波束形成器等方法来实现消除回声干扰，提高语音的质量。

④人脸特征提取及音频特征提取模块：通过面部特征提取模块和音频特征提取模块，分别提取处理后的图像序列和音频的特征。

面部特征提取模块用于从图像序列中提取面部相关的信息，包括肤色、角度、嘴部位置、嘴部开合大小、嘴唇颜色等，其构造如下：（1）输入层；（2）前置卷积块；（3）核心特征提取块；（4）模型的输出部分由最大池化层、全连接层和输出层组成。

图像序列处理的具体步骤如下：首先，将全部图像序列，以10帧为单位，划分时间窗口。对于每一帧，使用面部检测器来检测图像序列中的面部区域。然后，将检测到的面部区域裁剪并重新调整大小，以确保它们具有相同的尺寸和姿态。对于对齐后的拆分图像序列，使用上述面部特征提取模块来提取面部特征。

音频特征提取模块用于从音频中提取重要的声音特征，其架构与面部特征提取模块一致，但每一层的参数设定视具体应用需求而定。

音频处理的具体步骤如下：首先，音频会经过预加重处理，以强调高频部分。采用帧长为20-30毫秒的窗口将音频被分成短时窗口，相邻帧之间有重叠。接着，对每一帧的音频信号进行傅里叶变换，将时域信号转换为频域信号。将频谱图通过一组梅尔滤波器进行滤波，这些滤波器的频率划分是根据梅尔标度设计的。对每个滤波器输出取对数，以模拟人耳对音强度的非线性感知。最后，对取对数后的滤波器输出进行离散余弦变换，只保留部分DCT系数，最终将一维音频数据转为二维频率图谱。使用上述音频特征提取模块来提取音频特征。

基于上述提取的面部特征与音频特征，进行特征融合。为面部特征和音频特征设置不同的权重策略，这些权重通过训练来获得，以最大程度地提高任务性能。

⑤基于上述④中融合后的特征，通过图像重建模块进行面部重建，从低维度的特征表示中还原出与音频对应的面部图像。图像重建模块，即解码器接收来自潜在空间采样的向量，并逐渐生成图像。在每个解码器层次上，模型尝试恢复更多的细节，包括轮廓、纹理、颜色等面部特征。这是通过一系列反卷积、转置卷积和激活函数操作来完成的。重建的图像通过网络的不同层次传递，逐渐变得更加逼真。

⑥基于上述重建后的图像序列，通过音频图像矫正模块（目标图像生成模型）与像素提升模块，进一步提高输入音频与面部的动作同步，同时提升人脸特征的清晰度。音频图像矫正模块的架构如下：首先，将上述⑤中重建生成的图像序列输入生成模型中，输出生成的图像序列。然后，将生成的图像序列和真实的图像序列输出到判别模型中，输出损失，通过判别模型判断生成的真实程度。之后，将损失传递至模型，不断训练优化参数。通过训练，最终得到可以提升图像序列质量的生成模型（目标图像生成模型），以提升视频中图像序列的准确性、与音频的同步性。

其次，使用像素提升模块来增强重建后的面部图像的清晰度。该模块可以通过对图像进行去噪、锐化和边缘检测等操作来提高图像质量，可以应用去噪算法来减少图像中的噪声干扰，使用锐化算法来增强图像的细节和纹理，应用边缘检测算法来突出人脸的关键特征。通过这些预处理步骤，可以获得更清晰、更具表现力的面部图像。将音频图像矫正模块得到的时间校正结果应用于输入音频，以使输入音频与面部图像之间就实现了准确的动作同步。同时，将像素提升模块得到的优化结果应用于重建后的面部图像，以进一步增强其清晰度和细节。将经过修复和优化后的音频和图像进行融合，形成最终的输出结果。

最后，将合成的连续音频和图像的融合结果按时间戳串联起来，输出高清动画嘴型视频。

实施例二：

图5是本发明实施例提供的一种电子设备的结构示意图。如图5所示，电子设备400包括一个或多个处理器401和存储器402。

处理器401可以是中央处理单元（CPU）或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备400中的其他组件以执行期望的功能。

存储器402可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器（RAM）和/或高速缓冲存储器（cache）等。非易失性存储器例如可以包括只读存储器（ROM）、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器401可以运行程序指令，以实现上文所说明的本发明任意实施例的基于音频驱动的图像处理方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如初始外参、阈值等各种内容。

在一个示例中，电子设备400还可以包括：输入装置403和输出装置404，这些组件通过总线系统和/或其他形式的连接机构（未示出）互连。该输入装置403可以包括例如键盘、鼠标等等。该输出装置404可以向外部输出各种信息，包括预警提示信息、制动力度等。该输出装置404可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图5中仅示出了该电子设备400中与本发明有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备400还可以包括任何其他适当的组件。

除了上述方法和设备以外，本发明的实施例还可以是计算机程序产品，其包括计算机程序指令，计算机程序指令在被处理器运行时使得处理器执行本发明任意实施例所提供的基于音频驱动的图像处理方法的步骤。

计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例操作的程序代码，程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

实施例三：

此外，本发明的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，计算机程序指令在被处理器运行时使得处理器执行本发明任意实施例所提供的基于音频驱动的图像处理方法的步骤。

计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

需要说明的是，本发明所用术语仅为了描述特定实施例，而非限制本申请范围。如本发明说明书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括上述要素的过程、方法或者设备中还存在另外的相同要素。

还需说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。除非另有明确的规定和限定，术语“安装”、“相连”、“连接”等应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案。

Claims

1.一种基于音频驱动的图像处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述预先训练完成的嘴部调整模型基于如下方式训练得到：

将所述样本视频中的样本图像序列输入至所述面部特征提取模块中，得到样本面部特征；

将与所述样本图像序列对应的样本音频输入至所述音频特征提取模块中，得到样本音频特征；

将所述样本面部特征以及所述样本音频特征，输入至所述特征融合模块，得到样本融合特征；

将所述样本融合特征输入至所述图像重建模块，得到图像重建序列；

基于所述图像重建序列、所述样本图像序列以及所述嘴部调整模型的损失函数，确定所述嘴部调整模型的目标损失；

基于所述目标损失对所述嘴部调整模型进行模型参数调整，得到训练完成的嘴部调整模型。

3.根据权利要求2所述的方法，其特征在于，所述将所述样本视频中的样本图像序列输入至所述面部特征提取模块中，得到样本面部特征，包括：

针对每个样本图像序列，按照预设帧数对所述样本图像序列进行拆分，得到多个拆分图像序列；

对各所述拆分图像序列中的面部区域进行识别，并按照预设形状裁剪所述面部区域，并对裁剪得到的各面部区域进行重采样处理，得到各样本面部序列；

将各所述样本面部序列依次输入至第一前置卷积块、多个第一核心特征提取块以及第一后置处理块中，得到样本面部特征。

4.根据权利要求3所述的方法，其特征在于，所述第一前置卷积块包括依次连接的第一卷积层、第二卷积层以及第三卷积层，所述第一卷积层中卷积核的尺寸与所述第二卷积层中卷积核的尺寸相同，所述第三卷积层中卷积核的尺寸小于所述第二卷积层中卷积核的尺寸；每个所述第一核心特征提取块包括第一特征提取子块以及至少两个第二特征提取子块，所述第一特征提取子块由多个深度可分离卷积层组成，所述第二特征提取子块由多头注意力机制和前馈神经网络组成；所述第一后置处理块包括依次连接的最大池化层、全连接层和输出层。

5.根据权利要求4所述的方法，其特征在于，每个所述第一特征提取子块的输入和所述第一特征提取子块中最后一个深度可分离卷积层的输出进行残差连接，得到所述第一特征提取子块的输出；所述第二特征提取子块的输入和所述多头注意力机制的输出进行残差连接，得到所述前馈神经网络的输入；所述前馈神经网络的输入和所述前馈神经网络的输出进行残差连接，得到所述第二特征提取子块的输出。

6.根据权利要求3所述的方法，其特征在于，所述将与所述样本图像序列对应的样本音频输入至所述音频特征提取模块中，得到样本音频特征，包括：

针对每个样本音频，按照预设窗口大小以及预设步长对所述样本音频进行拆分，得到多个拆分音频；

针对每个拆分音频，对所述拆分音频进行傅里叶变换得到第一变换频谱图，基于梅尔滤波器组对所述第一变换频谱图进行处理，得到第二变换频谱图序列，对所述第二变换频谱图序列依次进行对数处理以及离散余弦变换，得到所述样本音频对应的音频图谱序列；

将所述音频图谱序列依次输入至第二前置卷积块、第二核心特征提取块以及第二后置处理块中，得到样本音频特征；

其中，所述第二前置卷积块与所述第一前置卷积块的结构相同，所述第二核心特征提取块与所述第一核心特征提取块的结构相同，所述第二后置处理块与所述第一后置处理块的结构相同。

7.根据权利要求1所述的方法，其特征在于，在所述将所述初始图像序列以及所述初始音频输入至预先训练完成的嘴部调整模型中，输出与所述初始音频对应的目标图像序列之后，还包括：

将所述目标图像序列输入至目标图像生成模型，得到图像矫正序列；

其中，所述目标图像生成模型根据所述样本图像序列以及所述样本图像序列对应的图像重建序列对初始图像生成模型训练得到，所述图像重建序列为通过所述嘴部调整模型对所述样本图像序列进行处理得到的图像序列。

8.根据权利要求7所述的方法，其特征在于，所述初始图像生成模型包括生成器和判别器，所述目标图像生成模型基于如下方式训练得到：

将所述训练样本集中的图像重建序列输入至所述生成器中，得到样本矫正序列；

将所述样本矫正序列以及与所述样本矫正序列对应的样本图像序列输入至所述判别器中，得到输出损失；

根据所述输出损失对所述生成器和所述判别器进行网络参数调整，将调整得到的生成器作为目标图像生成模型。

9.一种电子设备，其特征在于，所述电子设备包括：

处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如权利要求1至8任一项所述的基于音频驱动的图像处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如权利要求1至8任一项所述的基于音频驱动的图像处理方法的步骤。