CN116704999A

CN116704999A - 一种音频数据处理方法、装置、存储介质和电子设备

Info

Publication number: CN116704999A
Application number: CN202211124182.4A
Authority: CN
Inventors: 龚雪飞; 陆二伟
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2022-09-15
Filing date: 2022-09-15
Publication date: 2023-09-05

Abstract

本申请涉及人工智能技术领域，本申请实施例提供了一种音频数据处理方法、装置、存储介质和电子设备。该方法应用于电子设备，电子设备基于生成式对抗网络，根据声学特征生成全频带音频信号，该方法包括：将声学特征通过上采样生成全频带音频信号；基于多周期判别器框架鉴别全频带音频信号的真假。根据本申请提供的音频数据处理方法，可以快速生成全频带音频信号，并基于多周期判别器框架鉴别全频带音频信号的真假，进而提升音频音质和音频效果。

Description

一种音频数据处理方法、装置、存储介质和电子设备

【技术领域】

本申请涉及人工智能技术领域，尤其涉及一种音频数据处理方法、装置、存储介质和电子设备。

【背景技术】

语音合成技术，即将输入的文字信息转化为可听的声音信息，可以通过不同的音色说出想表达的内容。

端到端的语音合成(Text To Speech，简称TTS)系统成为了主流的语音合成系统框架。终端设备通过预装、采购的方式需要使用多家供应商的TTS技术能力，音色未进行统一，且同一终端设备上不同业务的语音播报效果不一致，不同终端设备上的语音播报效果也不一致，终端设备安装的TTS引擎合成的语音的音质较差，机械感较强。

【发明内容】

有鉴于此，本申请实施例提供了一种音频数据处理方法、装置、存储介质和电子设备，用以提升音频音质和音频效果。

本申请实施例采用下述技术方案：

第一方面，本申请实施例提供了一种音频数据处理方法，方法应用于电子设备，电子设备基于生成式对抗网络，根据声学特征生成全频带音频信号，方法包括：

将声学特征通过上采样生成全频带音频信号；

基于多周期判别器框架鉴别全频带音频信号的真假。

根据本申请提供的音频数据处理方法，可以快速生成全频带音频信号，并基于多周期判别器框架鉴别全频带音频信号的真假，进而提升音频音质和音频效果。

具体的，在第一方面的一种实现方式中，基于多周期判别器框架鉴别所述全频带音频信号的真假，包括：

根据全频带音频信号，生成多个周期的音频信号；

针对多个周期的音频信号，分别鉴别每个周期的音频信号的真假。

根据本申请实施例所提出的上述实现方式，可以根据全频带音频信号生成多个周期的音频信号，以鉴别每个周期的音频信号的真假，提高了鉴别音频信号的准确性。

在第一方面的一种实现方式中，方法还包括：

基于多尺度判别器框架鉴别全频带音频信号的真假。

具体的，在第一方面的一种实现方式中，基于多尺度判别器框架鉴别全频带音频信号的真假，包括：

根据全频带音频信号，生成多个尺度的音频信号；

针对多个尺度的音频信号，分别鉴别每个尺度的音频信号的真假。

根据本申请实施例所提出的上述实现方式，可以根据全频带音频信号生成多个尺度的音频信号，以鉴别每个尺度的音频信号的真假，提高了鉴别音频信号的准确性。

在第一方面的一种实现方式中，将声学特征通过上采样生成全频带音频信号，包括：

根据声学特征生成多频带的第一音频子信号；

根据时域音频信号生成多频带的第二音频子信号；

对第一音频子信号与第二音频子信号进行损失度计算，生成多个子频带音频信号；

将多个子频带音频信号合并成全频带音频信号。

在第一方面的一种实现方式中，根据声学特征生成多频带的第一音频子信号，包括：

将声学特征转化为四维声学特征；

根据四维声学特征生成多频带的第一音频子信号。

在第一方面的一种实现方式中，将声学特征转化为四维声学特征，包括：

基于二维卷积，将声学特征转化为四维声学特征。

根据本申请实施例所提出的上述实现方式，基于二维卷积，将声学特征转换为四维声学特征，就可以绕过后续原有的三维特征转四维特征的操作步骤，减少生成器中的维度变换操作，从而提升生成器的运算效率，加速模型计算。

在第一方面的一种实现方式中，根据四维声学特征生成多频带的第一音频子信号，包括：

对四维声学特征进行信号处理，提高音频信号的分辨率，生成信号处理结果；

对信号处理结果进行二维卷积非线性处理，生成多频带的第一音频子信号。

第二方面，本申请实施例提供了一种音频数据处理装置，装置应用于电子设备，装置用于基于生成式对抗网络，根据声学特征生成全频带音频信号，其中，装置包括：

生成器，其用于将声学特征通过上采样生成全频带音频信号；

判别器，其用于基于多周期判别器框架鉴别全频带音频信号的真假。

第三方面，本申请实施例提供了一种电子设备，电子设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器，其中，当计算机程序指令被该处理器执行时，触发电子设备执行如第一方面所述的方法步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如第一方面所述的方法。

【附图说明】

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为根据本申请一实施例提供的一种语音合成系统的结构示意图；

图2为根据本申请一实施例提供的一种音频数据处理装置的结构示意图；

图3为根据本申请一实施例提供的第一判别器的原理示意图；

图4为根据本申请一实施例提供的另一种音频数据处理装置的结构示意图；

图5为根据本申请一实施例提供的第二判别器的原理示意图；

图6为根据本申请一实施例提供的一种音频数据处理方法的流程示意图；

图7为根据本申请一实施例提供的一种电子设备的结构示意图。

【具体实施方式】

为了更好的理解本申请的技术方案，下面结合附图对本申请实施例进行详细描述。

应当明确，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，甲和/或乙，可以表示：单独存在甲，同时存在甲和乙，单独存在乙这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

在端侧设备上运行TTS系统，需要充分考虑功耗、时延、只读存储器(Read-OnlyMemory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)指标。

图1为根据本申请一实施例提供的一种语音合成系统的结构示意图，如图1所示，语音合成系统包括：文本正则模块11、韵律预测模块12、注音模块13、声学模型模块14和声码器15。其中，文本正则模块11、韵律预测模块12和注音模块13为前端模块，声学模型模块14和声码器15为后端模块。

文本正则模块11用于利用正则表达式，将电话、时间、金钱、单位、符号、邮箱、日期等转换为标准化文字，即将输入的文本中简写或缩写的文字进行标准化。例如，Sep.11th需要标准化为September Eleventh。

韵律预测模块12用于使用深度网络预测文本的句子中词与词之间的停顿和/或重音。

例如，句子为：“革命胜利后，又经受了一次次政治风浪的考验”，如果该句子的停顿信息不准确就会出现：“革命胜利后，又经受了/一次/次/政治风浪的考验”，在一次次的地方有一个停顿，这是不该有的，会导致语音合成的信息不自然，如果再严重点可能会影响语音信息的传达。

其中，需要韵律文本数据对韵律预测模型进行训练。

注音模块13用于使用深度网络将文字转换为拼音，同时解决多音字的问题。

例如，“模型”和“模样”，这里的“模”字就发不同的音，“模”字为多音字。所以在输入一个句子的时候，前端模块就需要准确判断出这个字的发音，生成发音信息。

又例如，speech是这个文本的字形，需要先把它转化成音素s p iy ch，得到语言学信息。

其中，需要多音字数据对注音模型进行训练，可采用多音字分词+设定的规则进行注音。

声学模型模块14用于并行计算网络将拼音转换为音频声学特征，其中，可通过声优录制的音频语料进行音色训练，可进行中英文混合编码实验。即基于前端模块产生的发音信息或语言学信息生成声学特征，声学特征包括梅尔频谱图。

声码器15用于通过生成式对抗网络(Generative Adversarial Networks，简称GAN)将声学特征来合成声音的波形图，以输出音频。

例如，输入文本：六合区现在4℃。文本正则模块11将六合区现在4℃处理为：六合区现在四摄氏度。韵律预测模块12将六合区现在四摄氏度处理为：六合区#2现在#1四#1摄氏度#3。注音模块13将六合区#2现在#1四#1摄氏度#3处理为：lu4 he2 qu1#2xian4 zai4#1si4#1she4 shi4 du4#3。声学模型模块14将lu4 he2 qu1#2xian4 zai4#1si4#1she4 shi4du4#3处理为声学特征。声码器15将声学特征来合成声音的波形图，以输出音频。

图2为根据本申请一实施例提供的一种音频数据处理装置的结构示意图，音频数据处理装置为声码器。

在一实施例中，如图2所示，声码器采用GAN模型，包括生成器(G)210和第一判别器(D)223。

生成器(G)210用于将声学特征通过上采样生成全频带音频信号。其中，声学特征为样本原音频的声学特征，例如，声学特征包括梅尔(mel)谱或者线性预测编码(linearpredictive coding，简称lpc)等的声学特征。

第一判别器(D)223用于判断生成器210生成的全频带音频信号是否为真。

声码器的生成器(G)210采用了多频带非自回归前馈卷积架构(MB melgan)框架。具体的，生成器(G)210包含上采样器，上采样器包括特征获取模块211、一维卷积(Conv1d)模块212、串行结构213以及一维卷积非线性函数模块214。

特征获取模块211用于获取声学特征。

具体的，音频信号在时域中是一维信号，特征获取模块211音频信号进行短时傅里叶变换得到频谱(声学特征)，该频谱为二维信号。

进一步的，在进行一维卷积网络训练的时候，采用批处理参数(Batch_size)操作对二维信号进行处理，可构建一个三维信号。基于此，一维卷积模块212用于对特征获取模块211获取的声学特征(二维信号)采用一维卷积，生成三维的声学特征，即三维声学特征。

一维卷积模块212将生成的三维声学特征输入串行结构213进行信号处理，生成信号处理结果。串行结构213的信号处理操作用于提高音频信号的分辨率。

具体的，串行结构213包括升采样模块(Upsample)2131和残差块模块(ResidualBlock)2132。其中，升采样模块(Upsample)2131和残差块模块(Residual Block)2132有2个堆叠。

残差块模块2132包含计算单元201，计算单元201用于进行卷积神经网络(Convolutional Neural Network，简称CNN)卷积操作，提取一维卷积模块212生成的三维声学特征的序列之间的局部特征，将局部特征映射到另一个维度空间的抽象信号，以扩充CNN的卷积视野。

具体的，计算单元201包括激活模块(activation)215、覆盖模块(pad)216、一维卷积+激活模块(Conv1d+activate)217和2一维卷积模块(2Conv1d)218。

串行结构213将信号处理结果输入一维卷积非线性函数模块(Conv1d Tanh)214。

一维卷积非线性函数模块214根据串行结构213的信号处理结果生成多频带的音频子信号y1。

具体的，一维卷积非线性函数模块214用于以非线性函数(tanh)为激活函数，基于一维卷积(Conv1d)获取信号处理结果中向量之间的乘积。

生成器(G)210还包含音频信号获取模块219、解析滤波器组(analysis Filterbank)220、损失度(loss)计算模块221以及子带合成滤波模块(synthesis filter bank)222。

音频信号获取模块219用于获取时域音频信号，音频信号获取模块219获取的时域音频信号为真实的音频信号。

音频信号获取模块219将获取的时域音频信号输入解析滤波器组220。解析滤波器组220将时域音频信号拆分为多频带的音频子信号y2。

一维卷积非线性函数模块214生成的多频带的音频子信号y1，以及，解析滤波器组220生成的多频带的音频子信号y2被输入到损失度(loss)计算模块221。

损失度计算模块221对多频带的音频子信号y1与多频带的音频子信号y2进行损失度(loss)计算，生成多个子频带音频信号(全频带音频信号)。作为一种可选方案，多个子频带音频信号的数量为4个。

损失度计算模块221将多个子频带音频信号输入子带合成滤波模块222。

子带合成滤波模块222将多个子频带音频信号合并成第一全频带音频信号。

第一全频带音频信号被输入到第一判别器223以鉴别第一全频带音频信号的真假。

在一种实现方式中，第一判别器223用于鉴别第一全频带音频信号的音频参数是否符合真音频参数。

例如，第一全频带音频信号的音频参数包括采样率，当第一全频带音频信号的采样率大于3000kbps时，第一判别器223鉴别第一全频带音频信号为真；当第一全频带音频信号的采样率小于或等于3000kbps时，第一判别器223鉴别第一全频带音频信号为假。

具体的，在一实施例中，第一判别器223采用多尺度判别器(Multi-ScaleDiscriminator，简称MSD)鉴别第一全频带音频信号的真假。

具体的，根据输入到第一判别器223的全频带音频信号，生成多个尺度的音频信号，分别鉴定每个尺度的音频信号的真假。只有当每个尺度的鉴别结果均为真，或者，鉴别为真的结果的数量大于预设阈值时，才确定全频带音频信号的鉴别结果为真。

图3为根据本申请一实施例提供的第一判别器的原理示意图。

在一实施例中，图2中第一判别器223的原理参照图3所示。第一全频带音频信号通过平均池化(Average Pooling，Avg Pool)和应用卷积(apply convolution)操作以及多尺度判别器(Multi-Scale Discriminator，简称MSD)[2]鉴别音频的真假。具体的，针对全频带音频信号，基于平均池化和应用卷积进行下采样操作，构建不同尺度的音频信号；多尺度判别器[2]分别针对每个尺度的音频信号，鉴别其真假。

例如，如图2所示，第一判别器223为三个尺度的判别器。第一判别器223包含信号获取模块2231、鉴别器块(discriminator block)2232、平均池化层(Avg Pool)2233、鉴别器块2234、平均池化层2235以及鉴别器块2236。子带合成滤波模块222将第一全频带音频信号输入信号获取模块2231。

信号获取模块2231将第一全频带音频信号输入到鉴别器块2232，鉴别器块2232鉴别第一全频带音频信号的真假。

平均池化层2233以及平均池化层2235用于构建不同尺度的音频信号。

信号获取模块2231将第一全频带音频信号输入到平均池化层2233。平均池化层2233对第一全频带音频信号进行下采样操作，构建第一尺度的第二全频带音频信号。其中，第一判别器223的平均池化层(Avg Pool)的作用为构建不同尺度的音频信号。平均池化层2233将第二全频带音频信号输入到鉴别器块2234，鉴别器块2234鉴别第二全频带音频信号的真假。

平均池化层2233将第二全频带音频信号输入到平均池化层2235。平均池化层2235对第二全频带音频信号进行下采样操作，构建第二尺度的第三全频带音频信号。平均池化层2235将第二尺度的第三全频带音频信号输入到鉴别器块2236鉴别第三全频带音频信号的真假。

进一步的，根据鉴别器块2232、鉴别器块2234以及鉴别器块2236的鉴别结果，生成第一判别器223针对第一全频带音频信号的判别结果。例如，当鉴别器块2232、鉴别器块2234以及鉴别器块2236的鉴别结果均为真时，确定第一全频带音频信号为真；当鉴别器块2232、鉴别器块2234以及鉴别器块2236的鉴别结果包含假时，确定第一全频带音频信号为假。

本申请一实施例提供了一种音频数据处理装置，该装置应用于电子设备，该装置用于基于生成式对抗网络，根据声学特征生成全频带音频信号。

图4为根据本申请一实施例提供的音频数据处理装置的结构示意图，音频数据处理装置为声码器，如图4所示，音频数据处理装置包括：

声码器采用GAN模型，包括生成器(G)310、判别器300。

生成器(G)310用于将声学特征通过上采样生成全频带音频信号。参照生成器(G)210。

判别器300用于鉴别生成器(G)310生成的全频带音频信号的真假。

图4所示声码器的生成器(G)310采用MB melgan框架。进一步的，生成器(G)310采用多维方案。

在生成器(G)210中，存在大量的三维特征转四维特征的操作，这会消耗大量的算力及处理时间。为了减少算力消耗，减少处理时间，在生成器(G)310中，声学特征311被输入二维卷积模块(Conv2d)312。在二维卷积模块(Conv2d)312中，基于Conv2d卷积对声学特征311进行计算，生成四维声学特征。

在生成器(G)310中，基于二维卷积模块(Conv2d)312，在声学特征311刚输入到声码器中就进行特征转换，将其转换为四维特征，就可以绕过后续原有的三维特征转四维特征的操作步骤，减少生成器(G)310中的维度变换操作，从而提升生成器(G)310的运算效率(例如，在一应用场景中，运算效率可以有15％的提升)，加速模型计算。

二维卷积模块(Conv2d)312将生成的四维声学特征输入到串行结构313(参照串行结构213)进行信号处理，生成信号处理结果。串行结构313的信号处理操作用于提高音频信号的分辨率。

具体的，串行结构313包括升采样模块(Upsample)3131和残差块模块(ResidualBlock)3132。

残差块模块(Residual Block)3132(参照残差块模块2132)包含计算单元301，计算单元301用于进行卷积神经网络(Convolutional Neural Network，简称CNN)卷积操作，提取二维卷积模块312生成的四维声学特征的序列之间的局部特征，将局部特征映射到另一个维度空间的抽象信号，以扩充CNN的卷积视野。

具体的，计算单元301包括激活模块(activation)315、覆盖模块(pad)316、二维卷积(Conv2d)+激活(activate)模块317和2二维卷积模块(2Conv2d)318。

串行结构313将信号处理结果输入二维卷积非线性函数模块(Conv2d Tanh)314。

二维卷积非线性函数模块314根据串行结构313的信号处理结果生成多频带的音频子信号y1(第一音频子信号)。

具体的，二维卷积非线性函数模块314用于以非线性函数(Tanh)为激活函数，基于二维卷积(Conv2d)获取信号处理结果中向量之间的乘积。

生成器(G)310还包含时域音频信号319、解析滤波器组(analysis Filter bank)320、损失度(loss)计算模块321以及子带合成滤波模块(synthesis filter bank)322。

音频信号获取模块319用于获取时域音频信号，音频信号获取模块319获取的时域音频信号为真实的音频信号。

音频信号获取模块319将获取的时域音频信号输入解析滤波器组320，解析滤波器组320将时域音频信号拆分为多频带的音频子信号y2(第二音频子信号)。

二维卷积非线性函数模块314生成的多频带的音频子信号y1，以及，解析滤波器组320生成的多频带的音频子信号y2被输入到损失度计算模块321。

损失度计算模块321对多频带的音频子信号y1与多频带的音频子信号y2进行损失度(loss)计算，生成多个子频带音频信号。作为一种可选方案，多个子频带音频信号的数量为4个。参照损失度计算模块221。

损失度计算模块321将多个子频带音频信号输入子带合成滤波模块322。

子带合成滤波模块322将多个子频带音频信号合并成第四全频带音频信号。参照子带合成滤波模块222。

如图4所示实施例中，生成器310中借助多频带(Multi-Band)技术，解析滤波器组320对时域音频信号按频带进行分解，每次生成多个子频带音频信号，通过子带合成滤波(Synthesis Filter Bank)322合并成全频带(Full Band)音频信号。

当子带合成滤波模块(Synthesis Filter Bank)322合成卷积时，内核大小(kernel size)为64的卷积时间占整个声码器70％的合成时间。若采用小的内核大小(kernel size)的扩展卷积替代大的内核大小(kernel size)的卷积操作，使得整个网络加速明显。

判别器300包括第一判别器323，第二全频带音频信号被输入到第一判别器323以鉴别第四全频带音频信号的真假。第一判别器323用于鉴别第四全频带音频信号的音频参数是否符合真音频参数。参照第一判别器223。

例如，第四全频带音频信号的音频参数包括采样率，当第四全频带音频信号的采样率大于3000kbps时，第一判别器323鉴别第四全频带音频信号为真；当第四全频带音频信号的采样率小于或等于3000kbps时，第一判别器323鉴别第四全频带音频信号为假。

具体的，在一实施例中，第一判别器323采用多尺度判别器(Multi-ScaleDiscriminator，简称MSD)鉴别第四全频带音频信号的真假。

具体的，根据输入到第一判别器323的全频带音频信号，生成多个尺度的音频信号，分别鉴定每个尺度的音频信号的真假。只有当每个尺度的鉴别结果均为真，或者，鉴别为真的结果的数量大于预设阈值时，才确定全频带音频信号的鉴别结果为真。

在一实施例中，图4中第一判别器323的原理参照图3所示。

第四全频带音频信号通过平均池化(Average Pooling，Avg Pool)和应用卷积(apply convolution)操作以及多尺度判别器(Multi-Scale Discriminator，简称MSD)[2]鉴别音频的真假。具体的，针对全频带音频信号，基于平均池化和应用卷积进行下采样操作，构建不同尺度的音频信号；多尺度判别器[2]分别针对每个尺度的音频信号，鉴别其真假。

例如，如图4所示，第一判别器323为三个尺度的判别器。第一判别器323包含信号获取模块3231、鉴别器块(discriminator block)3232、平均池化层(Avg Pool)3233、鉴别器块3234、平均池化层3235以及鉴别器块3236。子带合成滤波模块322将第四全频带音频信号输入信号获取模块3231。

信号获取模块3231将第四全频带音频信号输入到鉴别器块3232，鉴别器块3232鉴别第四全频带音频信号的真假。

平均池化层3233以及平均池化层3235用于构建不同尺度的音频信号。

信号获取模块3231将第四全频带音频信号输入到平均池化层3233。平均池化层3233对第四全频带音频信号进行下采样操作，构建第一尺度的第五全频带音频信号。其中，第一判别器323的平均池化层(Avg Pool)的作用为构建不同尺度的音频信号。平均池化层3233将第五全频带音频信号输入到鉴别器块3234，鉴别器块3234鉴别第五全频带音频信号的真假。

平均池化层3233将第五全频带音频信号输入到平均池化层3235。平均池化层3235对第五全频带音频信号进行下采样操作，构建第二尺度的第六全频带音频信号。平均池化层3235将第二尺度的第六全频带音频信号输入到鉴别器块3236鉴别第六全频带音频信号的真假。

进一步的，根据鉴别器块3232、鉴别器块3234以及鉴别器块3236的鉴别结果，生成第一判别器323针对第四全频带音频信号的判别结果。例如，当鉴别器块3232、鉴别器块3234以及鉴别器块3236的鉴别结果均为真时，确定第四全频带音频信号为真；当鉴别器块3232、鉴别器块3234以及鉴别器块3236的鉴别结果包含假时，确定第四全频带音频信号为假。

进一步的，音频信号为一种周期性信号，为了提高判别器300的判别结果的准确性，在一实施例中，判别器300还采用了多周期判别器(Multi-Period Discriminator，简称MPD)框架鉴别音频信号的真假。

具体的，判别器300还包括第二判别器324，第四全频带音频信号被输入到第二判别器324以鉴别第四全频带音频信号的真假。子带合成滤波模块322将第四全频带音频信号输入第一鉴别器323和第二鉴别器324，第一鉴别器323和第二鉴别器324并行鉴别第四全频带音频信号的真假。

第二判别器324用于鉴别第四全频带音频信号的音频参数是否符合真音频参数。

例如，第四全频带音频信号的音频参数包括采样率，当第四全频带音频信号的采样率大于3000kbps时，第二判别器324鉴别第四全频带音频信号为真；当第四全频带音频信号的采样率小于或等于3000kbps时，第二判别器324鉴别第四全频带音频信号为假。

具体的，在一实施例中，第二判别器324采用多周期判别器(Multi-PeriodDiscriminator，简称MPD)鉴别第二全频带音频信号的真假。

具体的，根据输入到第二判别器324的全频带音频信号，生成多个周期的音频信号，分别鉴定每个周期的音频信号的真假。只有当每个周期的鉴别结果均为真，或者，鉴别为真的结果的数量大于预设阈值时，才确定全频带音频信号的鉴别结果为真。

图5为根据本申请一实施例提供的第二判别器的原理示意图。

在一实施例中，图4中第二判别器324的原理参照图5所示。

第二判别器324对第四全频带音频信号进行间隔抽样并按照时间(time)进行排序，并从将第四全频带音频信号从一维信息重塑为二维信息(Reshape from 1D to 2D)该二维信息包括宽(width)和高(height)，应用K*1核的卷积(Apply Convolution with a K*1kernel)，通过多周期判别器(Multi-Period Discriminator，简称MPD)[2]鉴别音频的真假。图5用于展示将第四全频带音频信号3231通过矩阵变换(Reshape)和卷积神经网络(CNN)进行处理，构建不同周期的音频信号的操作。多周期判别器[2]分别针对每个周期的音频信号，鉴别其真假。

图5所示实施例中，由于音频信号是一个周期性信号，引入MPD判别器学习音频周期性特征，MPD中包含了很多鉴别器块，每个鉴别器块可以鉴别不同周期的音频信号，不同周期的音频信号有不同的阶段(period)P，如图5中所示鉴别器块会把1D信号转换成2D信号，然后使用内核大小(kernel size)为K*1的CNN来进行处理。图4中的矩阵变换卷积模块可以基于不同的阶段(period)P，可获得不同周期的信号。

例如，如图4所示，第二判别器324为三个周期的判别器。第二判别器324包含信号获取模块3241、鉴别器块(discriminator block)3242、矩阵变换卷积模块(Reshape CNN)3243、鉴别器块3244、矩阵变换卷积模块3245以及鉴别器块3246。子带合成滤波模块322将第四全频带音频信号输入信号获取模块3241。

信号获取模块3241将第四全频带音频信号输入到鉴别器块3242，鉴别器块3242鉴别第四全频带音频信号的真假。

矩阵变换卷积模块3243以及矩阵变换卷积模块3245用于构建不同周期的音频信号。

信号获取模块3241将第四全频带音频信号输入到矩阵变换卷积模块3243。矩阵变换卷积模块3243对第四全频带音频信号进行下采样操作，构建第一周期的第七全频带音频信号。其中，第二判别器324的矩阵变换卷积模块3243的作用为构建不同周期的音频信号。矩阵变换卷积模块3243将第七全频带音频信号输入到鉴别器块3244，鉴别器块3244鉴别第七全频带音频信号的真假。

矩阵变换卷积模块3243将第七全频带音频信号输入到矩阵变换卷积模块3245。矩阵变换卷积模块3245对第七全频带音频信号进行下采样操作，构建第二周期的第八全频带音频信号。矩阵变换卷积模块3245将第二周期的第八全频带音频信号输入到鉴别器块3246鉴别第八全频带音频信号的真假。

进一步的，根据鉴别器块3242、鉴别器块3244以及鉴别器块3246的鉴别结果，生成第二判别器324针对第四全频带音频信号的判别结果。例如，当鉴别器块3242、鉴别器块3244以及鉴别器块3246的鉴别结果均为真时，确定第四全频带音频信号为真；当鉴别器块3242、鉴别器块3244以及鉴别器块3246的鉴别结果包含假时，确定第四全频带音频信号为假。

本申请实施例提供的技术方案中，声码器采用GAN网络，可以增加判别器模块的复杂度，提升合成音频的效果。

基于上述音频数据处理装置，本申请实施例提供了一种音频数据处理方法，图6为根据本申请一实施例提供的一种音频数据处理方法的流程示意图，该方法应用于电子设备，电子设备基于生成式对抗网络，根据声学特征生成全频带音频信号，如图6所示，该方法包括：

S102、根据声学特征生成多频带的第一音频子信号。

具体的，S102包括：

S1022、基于二维卷积，将声学特征转化为四维声学特征。

本申请一实施例中，S1022的具体描述请参见图4中在二维卷积模块(Conv2d)312中，基于Conv2d卷积对声学特征311进行计算，生成四维声学特征的相关内容。

S1024、对四维声学特征进行信号处理，提高音频信号的分辨率，生成信号处理结果。

本申请一实施例中，S1024的具体描述请参见图4中二维卷积模块(Conv2d)312将生成的四维声学特征输入到串行结构313中进行信号处理，生成信号处理结果的相关内容。

S1026、对信号处理结果进行二维卷积非线性处理，生成多频带的第一音频子信号。

本申请一实施例中，S1026的具体描述请参见图4中串行结构313将信号处理结果输入二维卷积非线性函数模块(Conv2d Tanh)314。二维卷积非线性函数模块314根据串行结构313的信号处理结果生成多频带的第一音频子信号的相关内容。

S104、根据时域音频信号生成多频带的第二音频子信号。

具体的，S104的具体描述请参见图4中音频信号获取模块319将获取的时域音频信号输入解析滤波器组320，解析滤波器组320将时域音频信号拆分为多频带的第二音频子信号的相关内容。

S106、对第一音频子信号与第二音频子信号进行损失度计算，生成多个子频带音频信号。

具体的，S106的具体描述请参见图4中损失度计算模块321对第一音频子信号与第二音频子信号进行损失度(loss)计算，生成多个子频带音频信号的相关内容。

S108、将多个子频带音频信号合并成全频带音频信号。

具体的，S108的具体描述请参见图4中生成器310中借助多频带(Multi-Band)技术，解析滤波器组320对时域音频信号按频带进行分解，每次生成多个子频带音频信号，通过子带合成滤波(Synthesis Filter Bank)322合并成全频带(Full Band)音频信号的相关内容。

S110、基于多周期判别器框架和多尺度判别器框架鉴别全频带音频信号的真假。

具体的，基于多周期判别器框架鉴别全频带音频信号的真假，包括：

A1、根据全频带音频信号，生成多个周期的音频信号。

A2、针对多个周期的音频信号，分别鉴别每个周期的音频信号的真假。

具体的，A1和A2的具体描述请参见图4中第二判别器324的执行内容。

具体的，基于多尺度判别器框架鉴别全频带音频信号的真假，包括：

B1、根据全频带音频信号，生成多个尺度的音频信号。

B2、针对多个尺度的音频信号，分别鉴别每个尺度的音频信号的真假。

具体的，B1和B2的具体描述请参见图4中第一判别器323的执行内容。

本申请实施例提供的技术方案中，该方法应用于电子设备，电子设备基于生成式对抗网络，根据声学特征生成全频带音频信号，该方法包括：将声学特征通过上采样生成全频带音频信号；基于多周期判别器框架鉴别全频带音频信号的真假。根据本申请提供的音频数据处理方法，可以快速生成全频带音频信号，并基于多周期判别器框架鉴别全频带音频信号的真假，进而提升音频音质和音频效果。

本申请实施例提供的技术方案中，声码器的模型较小，占用的存储空间也较小。声码器中的生成器可以快速生成全频带音频信号，生成器的工作效率较高。

本申请一实施例还提出了一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行上述方法。

本申请一实施例还提出了一种电子设备，电子设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发电子设备执行如本申请实施例所述的方法步骤。

具体的，在本申请一实施例中，上述一个或多个计算机程序被存储在上述存储器中，上述一个或多个计算机程序包括指令，当上述指令被上述设备执行时，使得上述设备执行本申请实施例所述的方法步骤。

示例性地，图7示出了本申请实施例提供的一电子设备的硬件结构示意图。如图7所示，电子设备可以包括处理器100，通信模块120，显示器130，指示器140、内部存储器150，外部存储器接口160，通用串行总线(universal serial bus，USB)接口170，电源管理模块180等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备的具体限定。在本申请另一些实施例中，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

电子设备的处理器100可以是片上装置SOC，该处理器中可以包括中央处理器(Central Processing Unit，CPU)，还可以进一步包括其他类型的处理器。例如，处理器100可以是PWM控制芯片。

处理器100涉及的处理器可以例如包括CPU、DSP、微控制器或数字信号处理器，还可包括GPU、嵌入式神经网络处理器(Neural-network Process Units，NPU)和图像信号处理器(Image Signal Processing，ISP)，处理器100还可包括必要的硬件加速器或逻辑处理硬件电路，如ASIC，或一个或多个用于控制本申请技术方案程序执行的集成电路等。此外，处理器100可以具有操作一个或多个软件程序的功能，软件程序可以存储在存储介质中。

处理器100可以包括一个或多个处理单元。例如：处理器100可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的部件，也可以集成在一个或多个处理器中。在一些实施例中，电子设备也可以包括一个或多个处理器100。其中，控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

在一些实施例中，处理器100可以包括一个或多个接口。接口可以包括集成电路间(inter-integrated circuit，I2C)接口，集成电路间音频(integrated circuit sound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，和/或USB接口等。其中，USB接口170是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口170可以用于电子设备与外围设备之间传输数据。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备的结构限定。在本申请另一些实施例中，电子设备也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

外部存储器接口160可以用于连接外部存储器，例如移动硬盘，实现扩展电子设备的存储能力。外部存储卡通过外部存储器接口160与处理器100通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

电子设备的内部存储器150可以用于存储一个或多个计算机程序，该一个或多个计算机程序包括指令。处理器100可以通过运行存储在内部存储器150的上述指令，从而使得电子设备执行本申请一些实施例中所提供的方法，以及各种应用以及数据处理等。内部存储器150可以包括代码存储区和数据存储区。其中，代码存储区可存储操作系统。数据存储区可存储电子设备使用过程中所创建的数据等。此外，内部存储器150可以包括高速随机存取存储器，还可以包括非易失性存储器，例如一个或多个磁盘存储部件，闪存部件，通用闪存存储器(universal flash storage，UFS)等。

内部存储器150可以是只读存储器(read-only memory，ROM)、可存储静态信息和指令的其它类型的静态存储设备、随机存取存储器(random access memory，RAM)或可存储信息和指令的其它类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compactdisc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备，或者还可以是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何计算机可读介质。

处理器100和内部存储器150可以合成一个处理装置，更常见的是彼此独立的部件，处理器100用于执行内部存储器150中存储的程序代码来实现本申请实施例所述方法。具体实现时，内部存储器150也可以集成在处理器中，或者，独立于处理器。

电源管理模块180用于为电子设备供电。

电源管理模块180用于连接电池与处理器100。电源管理模块180接收电池的输入，为处理器100，内部存储器150，外部存储器接口160，通信模块120等供电。电源管理模块180还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块180也可以设置于处理器100中。

电子设备的通信功能可以通过通信模块120，调制解调处理器以及基带处理器等实现。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过显示器130进行显示。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器100，与通信模块120或其他功能模块设置在同一个器件中。

通信模块120可以提供应用在电子设备上的包括无线局域网(wireless localarea networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)等无线通信的解决方案。通信模块120可以是集成至少一个通信处理模块的一个或多个器件。通信模块120将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器100。通信模块120还可以从处理器100接收待发送的信号，对其进行调频，放大，转为电磁波辐射出去。

进一步的，本申请实施例阐明的设备、装置、模块，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。

本领域内的技术人员应明白，本申请实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

在本申请所提供的几个实施例中，任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

具体的，本申请一实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行本申请实施例提供的方法。

本申请一实施例还提供一种计算机程序产品，该计算机程序产品包括计算机程序，当其在计算机上运行时，使得计算机执行本申请实施例提供的方法。

本申请中的实施例描述是参照根据本申请实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，本申请实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。例如，a，b和c中的至少一项可以表示：a，b，c，a和b，a和c，b和c或a和b和c，其中a，b，c可以是单个，也可以是多个。

本申请实施例中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以意识到，本申请实施例中描述的各单元及算法步骤，能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述，仅为本申请的具体实施方式，任何熟悉本技术领域的技术人员在本申请公开的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种音频数据处理方法，其特征在于，所述方法应用于电子设备，所述电子设备基于生成式对抗网络，根据声学特征生成全频带音频信号，所述方法包括：

将声学特征通过上采样生成所述全频带音频信号；

基于多周期判别器框架鉴别所述全频带音频信号的真假。

2.根据权利要求1所述的方法，其特征在于，所述基于多周期判别器框架鉴别所述全频带音频信号的真假，包括：

根据所述全频带音频信号，生成多个周期的音频信号；

针对所述多个周期的音频信号，分别鉴别每个周期的音频信号的真假。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

基于多尺度判别器框架鉴别所述全频带音频信号的真假。

4.根据权利要求3所述的方法，其特征在于，所述基于多尺度判别器框架鉴别所述全频带音频信号的真假，包括：

根据所述全频带音频信号，生成多个尺度的音频信号；

针对所述多个尺度的音频信号，分别鉴别每个尺度的音频信号的真假。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述将声学特征通过上采样生成全频带音频信号，包括：

根据所述声学特征生成多频带的第一音频子信号；

根据时域音频信号生成多频带的第二音频子信号；

对所述第一音频子信号与所述第二音频子信号进行损失度计算，生成多个子频带音频信号；

将所述多个子频带音频信号合并成所述全频带音频信号。

6.根据权利要求5所述的方法，其特征在于，所述根据所述声学特征生成多频带的第一音频子信号，包括：

将所述声学特征转化为四维声学特征；

根据所述四维声学特征生成所述多频带的第一音频子信号。

7.根据权利要求6所述的方法，其特征在于，所述将所述声学特征转化为四维声学特征，包括：

基于二维卷积，将所述声学特征转化为四维声学特征。

8.根据权利要求6所述的方法，其特征在于，所述根据所述四维声学特征生成所述多频带的第一音频子信号，包括：

对所述四维声学特征进行信号处理，提高音频信号的分辨率，生成信号处理结果；

对所述信号处理结果进行二维卷积非线性处理，生成所述多频带的第一音频子信号。

9.一种音频数据处理装置，其特征在于，所述装置应用于电子设备，所述装置用于基于生成式对抗网络，根据声学特征生成全频带音频信号，其中，所述装置包括：

生成器，其用于将声学特征通过上采样生成所述全频带音频信号；

判别器，其用于基于多周期判别器框架鉴别所述全频带音频信号的真假。

10.一种电子设备，其特征在于，所述电子设备包括用于存储计算机程序指令的存储器和用于执行计算机程序指令的处理器，其中，当所述计算机程序指令被该处理器执行时，触发所述电子设备执行如权利要求1-8中任一项所述的方法步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如权利要求1-8中任一项所述的方法。