CN116312612A

CN116312612A - 基于深度学习的音频处理方法和装置

Info

Publication number: CN116312612A
Application number: CN202310127206.XA
Authority: CN
Inventors: 马捷径; 夏舫; 李海洋; 王铮
Original assignee: Beijing Deck Intelligent Technology Co ltd
Current assignee: Beijing Deck Intelligent Technology Co ltd
Priority date: 2023-02-02
Filing date: 2023-02-02
Publication date: 2023-06-23
Anticipated expiration: 2043-02-02
Also published as: CN116312612B

Abstract

本发明实施例公开了一种基于深度学习的音频处理方法和装置，所述方法包括：获取待处理的音频数据和blendshapes数据；利用blendshapes数据对所述音频数据进行数据处理，并提取处理后的音频数据的梅尔频谱；将所述梅尔频谱输入预先训练的音频处理模型中，以得到动画驱动数据，所述动画驱动数据用于发送至应用端并驱动虚拟角色；其中，所述音频处理模型是基于深度学习网络利用梅尔频谱样本进行训练得到的，所述梅尔频谱样本是在数据处理后的音频数据样本中提取的。解决了现有技术中利用音频驱动表情时，驱动结果的准确性较和迁移性较差的问题。

Description

基于深度学习的音频处理方法和装置

技术领域

本发明涉及人工智能技术领域，具体涉及一种基于深度学习的音频处理方法和装置。

背景技术

随着人工智能和大数据技术的快速发展，数字虚拟人已经成为了数字世界接口，可实时交互的虚拟角色对品牌代言、文化创作、游戏等产生巨大冲击。视觉和听觉相融合的交互方式，提供了更好的交互体验。语音驱动表情动画是指，通过训练从语音中学习表情生成规则，驱动模板或3D模型。这就需要对音频数据进行处理，从而使得音频数据与动画建立驱动关联。

在现有技术中，通常采用以下方式进行音频数据处理：

1、对视频和音频提取参数特征映射；在训练阶段首先提取视频中的语音信号，再提取视频帧中的人脸特征点参数，接下来训练一个网络来对这两部分内容作映射。在测试阶段，输入一段音频，输出对应的人脸表情参数，最终将人脸表情参数转移到目标模型上。但是，该种方式中，人脸特征参数的提取决定了最终驱动结果精度，人脸表情参数设计简单，无法驱动复杂精细的表情。

2、基于人脸3D模型的动画构建；该方法采用原始音频数据作为输入，提取特征参数，再通过神经网络直接输出预制模板模型的顶点，该输出将是一个完整的人脸3D模型动画。但是，该种方法数据采集工作量巨大，算法迁移性较差。

3、口型和表情的结合的方法；在训练过程中加入情绪状态隐变量，对情绪进行建模，驱动时，在生成口型的同时混合面部表情预制动画资产，得到更自然的表情效果。但是，该种方法的隐变量没有清晰的语义，实际应用效果较差。

因此，提供一种基于深度学习的音频处理方法和装置，以期解决现有技术中利用音频驱动表情时，驱动结果的准确性较和迁移性较差的技术问题，就成为本领域技术人员亟待解决的问题。

发明内容

为此，本发明实施例提供一种基于深度学习的音频处理方法和装置，以期至少部分解决现有技术中利用音频驱动表情时，驱动结果的准确性较和迁移性较差的技术问题。

为了实现上述目的，本发明实施例提供如下技术方案：

本发明提供了一种基于深度学习的音频处理方法，所述方法包括：

获取待处理的音频数据和blendshapes数据；

利用blendshapes数据对所述音频数据进行数据处理，并提取处理后的音频数据的梅尔频谱；

将所述梅尔频谱输入预先训练的音频处理模型中，以得到动画驱动数据，所述动画驱动数据用于发送至应用端并驱动虚拟角色；

其中，所述音频处理模型是基于深度学习网络利用梅尔频谱样本进行训练得到的，所述梅尔频谱样本是在数据处理后的音频数据样本中提取的。

在一些实施例中，利用blendshapes数据对所述音频数据进行数据处理，并提取处理后的音频数据的梅尔频谱，具体包括：

将待处理的音频数据进行重采样，并将重采样后得到的采样结果进行标准化处理，以得到目标音频数据；

利用blendshapes数据对所述目标音频数据进行分块处理，提取分块处理后的音频数据的梅尔频谱。

在一些实施例中，对所述目标音频数据进行分块处理，具体包括：

利用第一预设公式计算第一目标长度和第一目标采样数；

基于所述第一目标长度、所述第一目标采样数和所述blendshapes数据的动画帧率，对所述目标音频数据做分块处理；

其中，所述第一预设公式包括：

其中，p₁表示第一目标长度，c₁为分块处理后音频的块大小，s₁为分块处理后每块对应的采样数，r为动画帧率。

在一些实施例中，基于深度学习网络利用梅尔频谱样本进行训练，以得到所述音频处理模型，具体包括：

采集音视频录制数据，提取所述音视频录制数据中的音频数据样本和与视频帧数相对应的blendshapes数据样本；

利用blendshapes数据样本对所述音频数据样本进行数据处理，并提取处理后的音频数据样本的梅尔频谱样本；

将所述梅尔频谱样本输入预先构建的深度学习网络中进行训练，以得到音频处理模型。

在一些实施例中，利用blendshapes数据样本对所述音频数据样本进行数据处理，并提取处理后的音频数据样本的梅尔频谱样本，具体包括：

将音频数据样本进行重采样，并将重采样后得到的采样结果进行标准化处理，以得到目标音频数据样本；

利用blendshapes数据样本对所述目标音频数据样本进行分块处理，提取分块处理后的音频数据样本的梅尔频谱，并作为梅尔频谱样本。

在一些实施例中，将音频数据样本进行重采样，并将重采样后得到的采样结果进行标准化处理，以得到目标音频数据样本，具体包括：

对于采样率大于16000音频数据样本的进行下采样，采样率小于16000的音频数据样本进行上采样。

在一些实施例中，利用blendshapes数据样本对所述目标音频数据样本进行分块处理，具体包括：

利用第二预设公式计算第二目标长度和第二目标采样数；

基于所述第二目标长度、所述第二目标采样数和所述blendshapes数据样本的总帧数，对所述目标音频数据样本做分块处理；

其中，所述第二预设公式包括：

其中，p₂表示第一目标长度，c₂为分块处理后音频的块大小，s₂为分块处理后每块对应的采样数，n为总帧数，l为音频长度。

本发明还提供了一种基于深度学习的音频处理装置，所述装置包括：

数据获取单元，用于获取待处理的音频数据和blendshapes数据；

数据处理单元，用于利用blendshapes数据对所述音频数据进行数据处理，并提取处理后的音频数据的梅尔频谱；

结果输出单元，用于将所述梅尔频谱输入预先训练的音频处理模型中，以得到动画驱动数据，所述动画驱动数据用于发送至应用端并驱动虚拟角色；

本发明还提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如上所述方法的步骤。

本发明还提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述方法的步骤。

本发明所提供的基于深度学习的音频处理方法，获取待处理的音频数据和blendshapes数据，利用blendshapes数据对所述音频数据进行数据处理，并提取处理后的音频数据的梅尔频谱；通过将所述梅尔频谱输入预先训练的音频处理模型中，以得到动画驱动数据，所述动画驱动数据用于发送至应用端并驱动虚拟角色。这样，本方法将音频重采样，制作成重叠的一帧帧数据，提取梅尔频谱特征图，再通过训练CNN得到音频参数，最终映射到人脸表情blendshapes参数，直接驱动MetaHuman角色，从而解决了现有技术中利用音频驱动表情时，驱动结果的准确性较和迁移性较差的技术问题。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

图1为本发明所提供的基于单目RGB相机的人脸表情图像处理方法的流程示意图之一；

图2为本发明所提供的基于单目RGB相机的人脸表情图像处理方法的流程示意图之二；

图3为本发明所提供的基于单目RGB相机的人脸表情图像处理方法的流程示意图之三；

图4为本发明所提供的基于单目RGB相机的人脸表情图像处理装置的结构示意图；

图5为本发明所提供的一种计算机设备的结构框图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有技术中，数字虚拟使用场景下，语音驱动虚拟动画角色时驱动结果的准确性较差的问题，本发明提供了一种基于深度学习的音频处理方法，利用将数据处理后的音频提取的梅尔频谱特征图输入预先训练的音频处理模型中，即可准确快速地得到音频参数映射到人脸表情的blendshapes参数，从而能够直接驱动MetaHuman角色，提高了驱动结果的准确性。在该实施例中，以利用苹果手机采集训练数据，提取音频并对音频数据重采样，分析音频梅尔频谱图，输入到CNN得到人脸blendshapes参数的场景为例。

请参考图1，图1为本发明所提供的基于深度学习的音频处理方法的流程示意图之一。

在一种具体实施方式中，本发明提供了一种基于深度学习的音频处理方法包括以下步骤：

S110：获取待处理的音频数据和blendshapes(混合形状系数)数据；在实际使用场景中，为了达到更好的视觉效果，对人脸中心轴两侧的blendshapes做对称处理，得到最终的blendshapes数据。

S120：利用blendshapes数据对所述音频数据进行数据处理，并提取处理后的音频数据的梅尔频谱；

S130：将所述梅尔频谱输入预先训练的音频处理模型中，以得到动画驱动数据，所述动画驱动数据用于发送至应用端并驱动虚拟角色；其中，所述音频处理模型是基于深度学习网络利用梅尔频谱样本进行训练得到的，所述梅尔频谱样本是在数据处理后的音频数据样本中提取的。

在步骤S120中，利用blendshapes数据对所述音频数据进行数据处理，并提取处理后的音频数据的梅尔频谱，如图2所示，具体包括以下步骤：

S210：将待处理的音频数据进行重采样，并将重采样后得到的采样结果进行标准化处理，以得到目标音频数据；

S220：利用blendshapes数据对所述目标音频数据进行分块处理，提取分块处理后的音频数据的梅尔频谱。

在步骤S220中，对所述目标音频数据进行分块处理，具体包括：

利用第一预设公式计算第一目标长度和第一目标采样数；

其中，所述第一预设公式包括：

也就是说，在音频处理过程中，标准化后的音频数据根据动画帧率r做分块处理，padding的长度计算公式为

其中/>

则音频分块后共有l/s个采样点。

在一些实施例中，如图3所示，基于深度学习网络利用梅尔频谱样本进行训练，以得到所述音频处理模型，具体包括以下步骤：

S310：采集音视频录制数据，提取所述音视频录制数据中的音频数据样本和与视频帧数相对应的blendshapes数据样本；例如，采用苹果手机提取视频对应的人脸blendshapes参数，简化数据采集步骤，将音频与动画做同步处理，blendshapes数据做对称处理。

S320：利用blendshapes数据样本对所述音频数据样本进行数据处理，并提取处理后的音频数据样本的梅尔频谱样本；

S330：将所述梅尔频谱样本输入预先构建的深度学习网络中进行训练，以得到音频处理模型。

具体地，预先构建的深度学习网络的网络模型中，输入分块处理后的音频，提取梅尔频谱，得到80维的特征后先用5×5的卷机核做卷机运算，输出128维再输入6层空洞卷机层，扩张率为d＝2×(imod3+1)，i为卷机层索引。卷机操作后输入全连接层得到128维音频隐空间，最终再投影到32个嘴部blendshapes系数。

在步骤S320中，利用blendshapes数据样本对所述音频数据样本进行数据处理，并提取处理后的音频数据样本的梅尔频谱样本，具体包括：

S321：将音频数据样本进行重采样，并将重采样后得到的采样结果进行标准化处理，以得到目标音频数据样本。其中，在重采样过程中，对于采样率大于16000音频数据样本的进行下采样，采样率小于16000的音频数据样本进行上采样。在一个具体使用场景中，在数据采集和预处理阶段，通过苹果手机采集N个人(包含不同性别)音视频录制数据，同时收集对应视频帧数的blendshapes数据。提取每段视频的音频数据，针对不同采样率的音频进行重采样。对于采样率大于16000的进行下采样，采样率小于16000的进行上采样，对于通道数大于1的，求均值后压缩到同一通道，最后做标准化。

S322：利用blendshapes数据样本对所述目标音频数据样本进行分块处理，提取分块处理后的音频数据样本的梅尔频谱，并作为梅尔频谱样本。

在分块处理时，利用第二预设公式计算第二目标长度和第二目标采样数；

其中，所述第二预设公式包括：

为了使音频数据与动画做到同步，需要对音频数据做分块处理。首先做padding，在模型训练过程中，将标准化后的音频数据根据blendshapes总帧数做分块处理，padding(数据边缘扩展)的长度计算公式为

其中c₂为分块处理后音频的块大小，n为对应的blendshapes总帧数，l为音频长度，/>

表示每块对应的采样数。

在上述具体实施方式中，本发明所提供的基于深度学习的音频处理方法，获取待处理的音频数据和blendshapes数据，利用blendshapes数据对所述音频数据进行数据处理，并提取处理后的音频数据的梅尔频谱；通过将所述梅尔频谱输入预先训练的音频处理模型中，以得到动画驱动数据，所述动画驱动数据用于发送至应用端并驱动虚拟角色。这样，本方法将音频重采样，制作成重叠的一帧帧数据，提取梅尔频谱特征图，再通过训练CNN得到音频参数，最终映射到人脸表情blendshapes参数，直接驱动MetaHuman角色，从而解决了现有技术中利用音频驱动表情时，驱动结果的准确性较和迁移性较差的技术问题。

除了上述方法，本发明还提供了一种基于深度学习的音频处理装置，如图4所示，所述装置包括：

数据获取单元401，用于获取待处理的音频数据和blendshapes数据；

数据处理单元402，用于利用blendshapes数据对所述音频数据进行数据处理，并提取处理后的音频数据的梅尔频谱；

结果输出单元403，用于将所述梅尔频谱输入预先训练的音频处理模型中，以得到动画驱动数据，所述动画驱动数据用于发送至应用端并驱动虚拟角色；

利用第一预设公式计算第一目标长度和第一目标采样数；

其中，所述第一预设公式包括：

利用第二预设公式计算第二目标长度和第二目标采样数；

其中，所述第二预设公式包括：

在上述具体实施方式中，本发明所提供的基于深度学习的音频处理装置，获取待处理的音频数据和blendshapes数据，利用blendshapes数据对所述音频数据进行数据处理，并提取处理后的音频数据的梅尔频谱；通过将所述梅尔频谱输入预先训练的音频处理模型中，以得到动画驱动数据，所述动画驱动数据用于发送至应用端并驱动虚拟角色。这样，本方法将音频重采样，制作成重叠的一帧帧数据，提取梅尔频谱特征图，再通过训练CNN得到音频参数，最终映射到人脸表情blendshapes参数，直接驱动MetaHuman角色，从而解决了现有技术中利用音频驱动表情时，驱动结果的准确性较和迁移性较差的技术问题。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和模型预测。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的模型预测用于存储静态信息和动态信息数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述方法实施例中的步骤。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

与上述实施例相对应的，本发明实施例还提供了一种计算机存储介质，该计算机存储介质中包含一个或多个程序指令。其中，所述一个或多个程序指令用于被执行如上所述的方法。

本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述方法。

在本发明实施例中，处理器可以是一种集成电路芯片，具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application Specific工ntegrated Circuit，简称ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息，结合其硬件完成上述方法的步骤。

存储介质可以是存储器，例如可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

其中，非易失性存储器可以是只读存储器(Read-Only Memory，简称ROM)、可编程只读存储器(Programmable ROM，简称PROM)、可擦除可编程只读存储器(Erasable PROM，简称EPROM)、电可擦除可编程只读存储器(Electrically EPROM，简称EEPROM)或闪存。

易失性存储器可以是随机存取存储器(Random Access Memory，简称RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，简称SRAM)、动态随机存取存储器(Dynamic RAM，简称DRAM)、同步动态随机存取存储器(Synchronous DRAM，简称SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，简称DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM，简称ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，简称SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，简称DRRAM)。

本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时，可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种基于深度学习的音频处理方法，其特征在于，所述方法包括：

获取待处理的音频数据和blendshapes数据；

2.根据权利要求1所述的基于深度学习的音频处理方法，其特征在于，利用blendshapes数据对所述音频数据进行数据处理，并提取处理后的音频数据的梅尔频谱，具体包括：

3.根据权利要求2所述的基于深度学习的音频处理方法，其特征在于，对所述目标音频数据进行分块处理，具体包括：

利用第一预设公式计算第一目标长度和第一目标采样数；

其中，所述第一预设公式包括：

4.根据权利要求1所述的基于深度学习的音频处理方法，其特征在于，基于深度学习网络利用梅尔频谱样本进行训练，以得到所述音频处理模型，具体包括：

5.根据权利要求4所述的基于深度学习的音频处理方法，其特征在于，利用blendshapes数据样本对所述音频数据样本进行数据处理，并提取处理后的音频数据样本的梅尔频谱样本，具体包括：

6.根据权利要求5所述的基于深度学习的音频处理方法，其特征在于，将音频数据样本进行重采样，并将重采样后得到的采样结果进行标准化处理，以得到目标音频数据样本，具体包括：

7.根据权利要求3所述的基于深度学习的音频处理方法，其特征在于，利用blendshapes数据样本对所述目标音频数据样本进行分块处理，具体包括：

利用第二预设公式计算第二目标长度和第二目标采样数；

其中，所述第二预设公式包括：

8.一种基于深度学习的音频处理装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。