CN111444967B

CN111444967B - 生成对抗网络的训练方法、生成方法、装置、设备及介质

Info

Publication number: CN111444967B
Application number: CN202010236969.4A
Authority: CN
Inventors: 缪畅宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2023-10-31
Anticipated expiration: 2040-03-30
Also published as: CN111444967A

Abstract

本申请公开了一种生成对抗网络的训练方法、音频的特征向量生成方法、装置、设备及介质，所述方法包括：调用神经网络模型对样本音频进行处理，得到第一特征向量；调用所述生成器对随机噪声进行处理，得到第二特征向量；调用所述判别器对所述第一特征向量和所述第二特征向量分别进行判别，得到所述第一特征向量对应的判别结果和所述第二特征向量的判别结果；基于所述判别结果，采用目标损失函数对所述神经网络模型、生成器和所述判别器进行交替训练，得到训练后的所述生成对抗网络。

Description

生成对抗网络的训练方法、生成方法、装置、设备及介质

技术领域

本申请实施例涉及多媒体技术领域，特别涉及一种生成对抗网络的训练方法、音频的特征向量生成方法、装置、设备及介质。

背景技术

采用机器学习模型对音频特征进行处理时，需要提取向量形式的音频特征。

相关技术中提供了一种音频的特征向量生成方法，对音频的时频特征进行单纯音频信号维度的特征提取，得到音频的特征向量。

上述方法提取到的特征向量只有粗粒度的特征表示能力。

发明内容

本申请实施例提供了一种音频特征的提取方法、装置、计算机设备及存储介质，对音频提取到的特征向量能够表征音频的细节特征，具有细粒度的特征表示能力。所述技术方案如下：

根据本申请的一个方面，提供了一种生成对抗网络的训练方法，所述生成对抗网络包括生成器和判别器，所述方法包括：

调用神经网络模型对样本音频进行处理，得到第一特征向量；

调用所述生成器对随机噪声进行处理，得到第二特征向量；

调用所述判别器对所述第一特征向量和所述第二特征向量分别进行判别，得到所述第一特征向量对应的判别结果和所述第二特征向量的判别结果；

基于所述判别结果，采用目标损失函数对所述神经网络模型、生成器和所述判别器进行交替训练，得到训练后的所述生成对抗网络。

根据本申请的另一方面，提供了一种音频的特征向量生成方法，所述方法包括：

获取音频；

提取所述音频的特征序列；

调用生成对抗网络中的生成器对所述音频的特征序列进行处理，得到所述音频的特征向量；

其中，所述生成对抗网络是采用神经网络模型对样本音频提取到的第一特征向量作为真实数据，结合判别器训练得到的。

根据本申请的另一方面，提供了一种生成对抗网络的训练装置，所述生成对抗网络包括生成器和判别器，所述装置包括：

调用模块，用于调用神经网络模型对样本音频进行处理，得到第一特征向量；

所述调用模块，还用于调用所述生成器对随机噪声进行处理，得到第二特征向量；

所述调用模块，还用于调用所述判别器对所述第一特征向量和所述第二特征向量分别进行判别，得到所述第一特征向量对应的判别结果和所述第二特征向量的判别结果；

训练模块，还用于基于所述判别结果，采用目标损失函数对所述神经网络模型、生成器和所述判别器进行交替训练，得到训练后的所述生成对抗网络。

根据本申请的另一方面，提供了一种音频的特征向量生成装置，所述装置包括：

获取模块，用于获取音频；

提取模块，用于提取所述音频的特征序列；

调用模块，用于调用生成对抗网络中的生成器对所述音频的特征序列进行处理，得到所述音频的特征向量；

另一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的生成对抗网络的训练方法，或，如上述方面所述的音频的特征向量生成方法。

另一方面，提供了一种计算机可读存储介质，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的生成对抗网络的训练方法，或，如上述方面所述的音频的特征向量生成方法。

另一方面，提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得计算机执行如上述方面所述的生成对抗网络的训练方法，或，如上述方面所述的音频的特征向量生成方法。

本申请实施例提供的技术方案带来的有益效果至少包括:

通过将神经网络模型对样本音频提取的第一特征向量作为真实数据，而非直接使用样本音频的特征序列来作为真实数据，使得生成对抗网络在训练阶段尽可能多地学习到细节表达能力，从而在音频的特征向量的生成过程中，能够生成出具有细粒度的特征表达能力的特征向量，提升特征向量的表达能力。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的生成对抗网络的原理示意图；

图2是本申请一个示例性实施例提供的生成对抗网络的训练方法的原理示意图；

图3示出了本申请一个示例性实施例提供的生成对抗网络的训练方法的流程图；

图4示出了本申请一个示例性实施例提供的生成对抗网络的训练方法的流程图；

图5示出了本申请一个示例性实施例提供的生成第一特征向量的原理示意图；

图6示出了本申请一个示例性实施例提供的生成第一特征向量的原理示意图；

图7示出了本申请一个示例性实施例提供的音频的特征向量生成方法的流程图；

图8示出了本申请一个示例性实施例提供的音频的特征序列的原理示意图；

图9示出了本申请一个示例性实施例提供的在音频推荐场景下的场景示意图；

图10示出了本申请一个示例性实施例提供的在音频打分场景下的场景示意图；

图11示出了本申请一个示例性实施例提供的生成对抗网络的训练装置的框图；

图12是本申请一个示例性实施例提供的音频的特征向量生成装置的结构框图；

图13示出了本申请一个示例性实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，对本申请实施例中涉及的名词进行简单介绍：

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

样本：指用于模型训练和测试的对象。本申请实施例中的样本指用于训练音频表示模型的音频片段样本，且该音频片段样本采用音频片段样本对的形式，即音频片段样本中包含两段音频片段样本。

可选的，当音频片段样本对是音频正样本对时，表明音频片段样本对中的两段音频片段样本在同一音频中存在时域前后关系，如：两段音频片段样本分别是一首歌曲的第一小节和第二小节；当音频片段样本对是音频负样本对时，表明音频片段样本对中的两段音频片段样本不存在时域前后关系，如：两段音频片段样本分别属于歌曲a和歌曲b。

卷积神经网络(Convolutional Neural Networks，CNN)：一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学习(deeplearning)的代表算法之一。卷积神经网络具有表征学习(representation learning)能力，能够按其阶层结构对输入信息进行平移不变分类(shift-invariantclassification)，因此也被称为“平移不变人工神经网络(Shift-Invariant ArtificialNeural Networks,SIANN)。

循环神经网络(Recurrent Neural Networks，RNN)：是一类具有短期记忆能力的神经网络，因而常用于序列建模。

生成对抗网络(Generative Adversarial Networks，GAN)：是一种深度学习模型，是近年来复杂分布上无监督学习最具前景的方法之一。模型通过框架中(至少)两个模块：生成模型(Generative Model)和判别模型(Discriminative Model)的互相博弈学习产生相当好的输出。原始GAN理论中，并不要求G和D都是神经网络，只需要是能拟合相应生成和判别的函数即可。但实用中一般均使用深度神经网络作为G和D。

生成对抗网络(GAN)是被广泛应用于图像处理中的神经网络模型。GAN包括：生成器(Generator)和判别器(Discriminator)。生成器又称生成模型，判别器又称判别模型。

本申请实施例提供了一种基于GAN的音频特征向量的提取方案。如图1所示，该GAN包括：生成器12和判别器14。

训练阶段：将多个音频(比如歌曲或乐曲)作为真实数据，将音频按照时域划分为多个音频片段，比如音频片段G1、音频片段G2和音频片段G3，采用神经网络模型16对音频中的多个音频片段进行特征提取，得到该音频的第一特征向量G’。将随机噪声R输入生成器12进行特征提取，得到第二特征向量R’。将第一特征向量G’和第二特征向量R’分别输入判别器14，由判别器14输出第一特征向量G’的判别结果，以及第二特征向量R’的判别结果。基于判别结果来对生成器12(及神经网络模型16)和判别器14进行交替训练。一方面的训练目标是，要求生成器12生成的第二特征向量R’尽可能地好；另一方面的训练目标是，要求判别器14的识别准确高，能够识别生成器12所生成的第二特征向量R’与第一特征向量G’不同。两个训练目标在模型训练过程中相互对抗，最后达到一种“平衡”：判别器14无法分辨第一特征向量G’与第二特征向量R’之间的区别。

预测阶段：将音频输入生成器12，由生成器12生成该音频的特征向量。

其中，神经网络模型16可以是循环神经网络(Recurrent Neural Network，RNN)。生成器12可以采用卷积神经网络(Convolutional Neural Networks,CNN)实现。

图2示出了本申请一个示例性实施例提供的计算机系统的结构框图。该计算机系统100包括：终端120和服务器140。

终端120运行有支持运行音频的平台，该平台可以是音频播放程序或小程序(依赖宿主程序运行的程序)、音频播放网页、视频播放程序或小程序、视频播放网页中的任意一种。终端120泛指一个或多个终端，比如，上述终端可以仅为一个，或者上述终端为十几个或几百个，或者更多数量，本申请实施例仅以一个终端120为例进行说明，终端120的类型包括：智能手机、平板电脑、电子书阅读器、MP3播放器、MP4播放器、膝上型便携计算机和台式计算机中的至少一种。本申请实施例对终端120的数量和类型不加以限定。

终端120通过无线网络或有线网络与服务器140相连。

服务器140包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。示意性的，服务器140包括处理器144和存储器142，存储器142存储有生成对抗网络1421、音频匹配模型1422和音频库1423。其中，生成对抗网络1421用于；音频匹配模型1422用于根据两个音频的特征向量，来预测两个音频之间的相似度。音频库1423存储有多个音频的音频数据(或称音频文件)。

在某些实施例中，生成对抗网络1421也可以存储在终端120中。

以下采用不同的实施例进行介绍。

图3示出了本申请一个示例性实施例提供的生成对抗网络的训练方法的流程图。本实施例以该方法应用于计算机设备(终端或服务器)来举例说明，该计算机设备中存储有生成对抗网络，该生成对抗网络包括生成器和判别器，该方法包括：

步骤302，调用神经网络模型对样本音频进行处理，得到第一特征向量；

样本音频可以是歌曲、乐曲、语音、录音、视频配音中的至少一种。本实施例以该样本音频是歌曲为例，样本音频可以为一个或多个。比如，样本音频是音频库中的多首歌曲。

该神经网络模型是用于提取样本音频的第一特征向量G’的机器学习模型。第一特征向量G’是样本音频的“中间表示”或“向量表示”。

步骤304，调用生成器对随机噪声进行处理，得到第二特征向量；

随机噪声是符合高斯分布的随机变量(或者符合其他先验的随机分布，如均匀分布)。随机噪声又称白噪声。

该生成器是用于将一个高斯分布的随机噪声变换成目标数据分布R’的机器学习模型。该目标数据分布R’是由第一特征向量G’作为正样本来进行描述的，或者说，该目标数据分布R’用于模拟第一特征向量G’。该目标数据分布R’是第二特征向量。

步骤306，调用判别器对第一特征向量和第二特征向量分别进行判别，得到第一特征向量的判别结果和第二特征向量的判别结果；

判别器用于判别输入的特征向量属于来自神经网络模型的真实特征向量的概率。

将第一特征向量G’输入判别器，判别器会输出第一特征向量G’的判别结果。该第一特征向量G’的判别结果用于指示第一特征向量G’属于来自神经网络模型的真实特征向量的概率。

将第二特征向量R’输入判别器，判别器会输出第二特征向量的判别结果。该第二特征向量R’的判别结果用于指示第二特征向量R’属于来自神经网络模型的真实特征向量的概率。

步骤308，基于判别结果，采用目标损失函数对神经网络模型、生成器和判别器进行交替训练，得到训练后的生成对抗网络。

基于第一特征向量G’的判别结果以及第二特征向量R’的判别结果，采用目标损失函数对神经网络模型、生成器和判别器进行交替训练，得到训练后的生成对抗网络。所谓“交替训练”是指：

1、固定神经网络模型和生成器的网络参数，采用目标损失函数对判别器的网络参数进行训练，得到训练后的判别器。此时的训练目标为：让判别器尽可能地判别出生成器生成的第二特征向量，不属于来自神经网络模型的真实特征向量。

2、固定判别器的网络参数，采用目标损失函数对神经网络模型和生成器的网络参数进行训练，得到训练后的神经网络模型和生成器。此时的训练目标为：让生成器尽可能地生成“足以乱真”的第二特征向量，让判别器难以分辨。

3、在未满足训练结束条件时，交替执行上述两个训练步骤。

训练结束条件包括但不限于：目标损失函数收敛，或者，训练次数达到次数阈值。

综上所述，本实施例提供的方法，通过将神经网络模型对样本音频提取的第一特征向量作为真实数据，而非直接使用样本音频的特征序列来作为真实数据，使得生成对抗网络在训练阶段尽可能多地学习到细节表达能力，从而在音频的特征向量的生成过程中，能够生成出具有细粒度的特征表达能力的特征向量，提升特征向量的表达能力。

图4示出了本申请另一个示例性实施例提供的生成对抗网络的训练方法的流程图。本实施例以该方法应用于计算机设备(终端或服务器)来举例说明，该计算机设备中存储有生成对抗网络，该生成对抗网络包括生成器和判别器，该方法包括：

步骤302-1，将样本音频按照时域划分为n个音频片段，n为大于1的整数；

采用预设采样间隔(比如每隔0.1秒)将音频在时间维度上进行采样，得到离散的时间序列T₁～T_k，每个T值代表音频在该采样点上的大小。

按照固定时间段(比如每个3秒时间段)进行分组，得到多个音频片段G₁～G_N，每个音频片段G_i中包括多个采样点，比如3秒/0.1秒＝30个采样点。i为不大于n的整数。

步骤302-2，提取n个音频片段的特征序列；

音频片段的特征序列包括：按照时间顺序排列的N个频域向量。每个频域向量为M维，每个维度代表该音频在一个频率F_M上的频率分布，相邻维度之间的频率差相同。其中，N和M均为大于1的整数。

将属于同一音频片段G_i中的多个采样点变换成一个频域向量，得到按照时间顺序排列的N个频域向量。也即对上述每个时间序列分组做时域至频域的变换，得到每个音频片段G_i所对应的频域序列。其中，时频变换方式包括但不限于FFT(Fast Fourier Transform，快速傅里叶变换)、DFT(Discrete Fourier Transform，离散傅里叶变换)、MFCC(Mel-scaleFrequency Cepstral Coefficients，梅尔频率倒谱系数)。每个频域序列代表同一组音频片段G_i里面包含的不同频率的分布。对于N个频域序列分别进行采样，得到N个频域向量。

按照时间顺序排列的N个频域向量构成一个M*N的二维矩阵，又称音频的频谱图或时频图。该二维矩阵上与N对应的轴代表时域方向，与M对应的轴代表频域方向。M是频率分布上下限与频率采样间隔之间的商。

步骤302-3，调用循环神经网络模型对n个音频片段的特征序列进行处理，得到样本音频的第一特征向量。

示意性的，神经网络模型是循环神经网络。循环神经网络是一类以序列(sequence)数据为输入，在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络。

其中，双向循环神经网络(Bidirectional RNN,Bi-RNN)和长短期记忆网络(LongShort-Term Memory networks，LSTM)是常见的循环神经网络。本步骤存在至少两种不同的实现方式：

方式一：调用循环神经网络对n个音频片段的特征序列依次编码，得到样本音频的第一特征向量。

设N个音频片段的特征序列为{G1，G2，…，G_n}，将整个特征序列一次性按照排列顺序输入至循环神经网络进行编码，得到第一特征向量G’，如图5所示。

方式二：将n个频域向量划分为至少两个连续片段组合，每个连续片段组合包括至少两个频域向量；调用循环神经网络分别对至少两个连续片段组合进行编码，得到至少两个编码向量；将至少两个编码向量进行池化处理，得到样本音频的第一特征向量。

设N个音频片段的特征序列为{G1，G2，…，G_n}，将n个频域向量划分为至少两个连续片段组合，比如{G1,G2,G3}，{G4,G5,G6},{...}等等。每个连续片段组合包括至少两个频域向量，每个连续片段组合中的频域向量的数量相同或不同。本实施例以每个连续片段组合中的频域向量的数量为3来举例说明。若计算机设备的计算能力较强，则可以增大该数量，以获得更强的序列信息。

对于每个连续片段组合，比如{G1,G2,G3}，调用循环神经网络对连续片段组合进行编码，得到相应的编码向量。假设存在p个连续片段组合，则得到p个编码向量，p为正整数。将p个编码向量进行池化处理，得到样本音频的第一特征向量G’，如图6所示.

可选地，将至少两个编码向量进行最大化池化(maxpooling)处理，得到样本音频的第一特征向量；或，将至少两个编码向量进行平均池化(averagepooling)处理，得到样本音频的第一特征向量G’。

步骤304，调用卷积神经网络对随机噪声的特征序列进行卷积处理，得到第二特征向量；

可选地，生成器采用卷积神经网络实现。示意性的，该卷积神经网络包括级联的至少两个卷积层。

计算机设备提取随机噪声R的特征序列，提取方式如步骤302所示。由于随机噪声R的特征序列是一个二维矩阵，采用该卷积神经网络对随机噪声R的特征序列进行卷积处理，得到第二特征向量R’。

步骤308-1，固定神经网络模型和生成器的网络参数，采用目标损失函数对判别器的网络参数进行训练，得到训练后的判别器；

步骤308-2，固定判别器的网络参数，采用目标损失函数对神经网络模型和生成器的网络参数进行训练，得到训练后的神经网络模型和生成器；

示意性的，神经网络模型(RNN)记为f1，生成器(CNN)记为f2，判别器记为f3，则目标函数J可以表示为：

J＝E(log(f3(G’)))+E(log(1-f3(R’)))

＝E(log(f3(f1(G1,G2,G3...))))+E(log(1-f3(f2)))

上述公式与GAN的原始公式相比，本质的区别在于真实音频这部分不是直接用的原始音频的向量G，而是通过神经网络模型(RNN)进行了序列化表示之后出来的第一特征向量G’。

步骤308-3，在未满足训练结束条件时，交替执行上述两个训练步骤。

本实施例提供的方法，通过方式一:调用循环神经网络对n个音频片段的特征序列依次编码，得到样本音频的第一特征向量，能够一次性得到音频的第一特征向量。计算效率较高，能够提取到较为精细的第一特征向量。

本实施例提供的方法，通过方式二：将n个频域向量划分为至少两个连续片段组合；调用循环神经网络分别对至少两个连续片段组合进行编码，得到至少两个编码向量；将至少两个编码向量进行池化处理，得到样本音频的第一特征向量，能够将方式一中的运算拆分为多个简短的运算过程，减少对计算机的计算性能的要求，适合部署在并列计算场景或计算机性能较弱的场景。

图7示出了本申请另一示例性实施例提供的音频的特征向量的生成方法的流程图。本实施例以该方法应用于计算机设备(终端或服务器)来举例说明。

该方法包括：

步骤702，获取音频；

计算机设备获取待预测的音频的音频数据。以计算机设备是服务器为例，服务器接收终端上传的音频的音频数据，或者，服务器接收终端上传的音频ID，根据音频ID在音频库中查找该音频的音频数据。

步骤704，提取音频的特征序列；

示例性的，先对音频信号进行时间维度的采样，比如每隔0.1s采样一个音频信号，得到离散的时间序列T₁～T_n，每个值代表音频在该采样点上的大小，然后再按固定时间段(比如3s)进行组合，比如时间段长度为3s采样间隔0.1s，那每组序列就包含了3s/0.1s＝30个值，比如T₁～T₃₀就是一组，称为G₁,T₃₁～T₆₀为G₂，依次类推。接着对每组时间序列做频域变换(包括但不限于FFT、MFCC、DFT等等)，将得到频域信号，代表一组时间序列里面包含的不同频率的分布，对频率信号也进行采样，比如10hz，就得到一个离散的频率序列。假设频率的上下限是0～f，那么每个频率序列的个数是f/10，每个G_i都可以表示成这么多个频率序列，只不过区别在于不同G_i的同样频率的值大小不同。对应到音乐上，音乐的某些部分低音很重，那这些G_i的低频值就很大，有些部分高音很高，那这些G_i的高频值很大。所以G_i既可以表示为时间序列T₁～T₃₀，也可以表示为频率序列，统一起来就是一张特征序列。如图8示例的特征序列，是一个真实的音频分解之后的特征序列，横轴是时间，时间段大概是1.75s左右，也就是每隔1.75s切一个时间片段；每个时间片段对应的频率是竖轴，频率上下限110hz～3520hz，灰度的深浅代表不同频率对应的值的大小。

步骤706，调用生成对抗网络中的生成器对音频的特征序列进行处理，得到音频的特征向量。

其中，生成对抗网络是采用神经网络模型对样本音频提取到的第一特征向量作为真实数据，结合判别器训练得到的。

综上所述，本实施例提供的方法，通过生成对抗网络中的生成器来输出音频的特征向量，使得生成对抗网络在训练阶段尽可能多地学习到细节表达能力，从而在音频的特征向量的生成过程中，能够生成出具有细粒度的特征表达能力的特征向量，提升特征向量的表达能力。

本实施例提供的方法，所生成的音频的特征向量，不光能区分出大的粒度，还能在一些细微的听感上捕捉到差异，比如同一种音乐风格的不同细小类别。

上述各个实施例所提供的音频特征的提取方法，在提取到音频的特征向量后，可以将该特征向量用于有关音频的机器学习训练、机器学习识别、机器学习分类中的至少一种机器学习任务。比如，将特征向量用于音频相似度计算模型的训练和识别，从而在音频匹配、音乐分类、音乐推荐、音乐生成、个性化推荐等场景。

也即，基于上述各个实施例的可选实施例中，可以采用上述实施例生成的音频的特征向量进行机器学习任务，所述机器学习任务包括：机器学习模型的训练任务和机器学习模型的预测任务中的至少一种。该机器学习模型可以是音频检索模型或音频匹配模型。

在一个示意性的例子中，上述音频的特征向量用于对音频匹配模型的训练和预测。该音频匹配模型是基于机器学习的全音频匹配模型或者音频片段匹配模型。以该音频匹配模型是全音频匹配模型为例，采用本申请实施例提供的音频的特征向量进行训练后，能够用于对两个音频之间的相似度预测。

音频推荐场景：

参考图9所示出的例子，用户使用的终端120上运行有音频播放应用程序，用户在音频播放应用程序上播放、收藏或点赞了第一音频(A歌)，服务器140可以将第一音频(A歌)的第一音频向量，与多个第二音频(B歌)的第二音频向量进行比较，确定出第一音频和第二音频的相似概率。根据相似概率由高到低的顺序，将与A歌比较相似的B歌、C歌、D歌和E歌作为推荐歌曲发送给终端120上的音频播放应用程序，使得用户能够听到更多符合自身喜好的歌曲。

唱歌打分场景：

参考图10所示出的例子，用户使用的终端120上运行有唱歌应用程序，用户在唱歌应用程序上演唱了一首歌曲，服务器140可以将第一音频(用户演唱的歌曲)的第一音频向量，与第二音频(原唱歌曲或明星歌曲或高分歌曲)的第二音频向量进行比较，确定出第一音频和第二音频的相似概率。根据相似概率给出用户的演唱分数，将演唱分数反馈给唱歌应用程序上进行显示，以利于用户提高自身的歌唱水平。

图11示出了本申请一个示意性实施例提供的生成对抗网络的训练装置的框图。该生成对抗网络包括生成器和判别器，所述装置包括：

调用模块1120，用于调用神经网络模型对样本音频进行处理，得到第一特征向量；

调用模块1120，用于调用所述生成器对随机噪声进行处理，得到第二特征向量；

调用模块1120，用于调用所述判别器对所述第一特征向量和所述第二特征向量分别进行判别，得到所述第一特征向量对应的判别结果和所述第二特征向量的判别结果；

训练模块1140，用于基于所述判别结果，采用目标损失函数对所述神经网络模型、生成器和所述判别器进行交替训练，得到训练后的所述生成对抗网络。

在一个可选的实施例中，所述神经网络模型包括循环神经网络；

所述调用模块1120，用于将所述样本音频按照时域划分为n个音频片段，n为大于1的整数；提取所述n个音频片段的特征序列；调用所述循环神经网络对所述n个音频片段的特征序列进行处理，得到所述样本音频的所述第一特征向量。

在一个可选的实施例中，所述调用模块1120，用于调用所述循环神经网络对所述n个音频片段的特征序列依次编码，得到所述样本音频的所述第一特征向量。

在一个可选的实施例中，所述调用模块1120，用于将所述n个频域向量划分为至少两个连续片段组合，每个所述连续片段组合包括至少两个频域向量；调用所述循环神经网络分别对所述至少两个连续片段组合进行编码，得到至少两个编码向量；将所述至少两个编码向量进行池化处理，得到所述样本音频的所述第一特征向量。

在一个可选的实施例中，所述调用模块1120，用于将所述至少两个编码向量进行最大化池化处理，得到所述样本音频的所述第一特征向量；或，将所述至少两个编码向量进行平均池化处理，得到所述样本音频的所述第一特征向量。

在一个可选的实施例中，所述生成器包括卷积神经网络；

所述调用模块1120，用于调用所述卷积神经网络对所述随机噪声的特征序列进行卷积处理，得到所述第二特征向量。

在一个可选的实施例中，所述训练模块1140，用于固定所述神经网络模型和所述生成器的网络参数，采用所述目标损失函数对所述判别器的网络参数进行训练，得到训练后的所述判别器；固定所述判别器的网络参数，采用所述目标损失函数对所述神经网络模型和所述生成器的网络参数进行训练，得到训练后的所述神经网络模型和所述生成器；在未满足训练结束条件时，交替执行上述两个训练步骤。

图12示出了本申请一个示意性实施例提供的音频的特征向量生成装置的框图。所述装置包括：

获取模块1220，用于获取音频；

提取模块1240，用于提取所述音频的特征序列；

调用模块1260，用于调用生成对抗网络中的生成器对所述音频的特征序列进行处理，得到所述音频的特征向量；

在一个可选的实施例中，机器学习模块1280，用于采用所述音频的特征向量进行机器学习任务，所述机器学习任务包括：机器学习模型的训练任务和机器学习模型的预测任务中的至少一种。

图13示出了本申请一个示例性实施例提供的计算机设备的结构示意图。具体来讲：所述计算机设备1300包括中央处理单元(Central Processing Unit，CPU)1301、包括随机存取存储器1302和只读存储器1303的系统存储器1304，以及连接系统存储器1304和中央处理单元1301的系统总线1305。所述计算机设备1300还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(Input/Output，I/O系统)1306，和用于存储操作系统1313、应用程序1314和其他程序模块1315的大容量存储设备1307。

所述基本输入/输出系统1306包括有用于显示信息的显示器1308和用于用户输入信息的诸如鼠标、键盘之类的输入设备1309。其中所述显示器1308和输入设备1309都通过连接到系统总线1305的输入输出控制器1310连接到中央处理单元1301。所述基本输入/输出系统1306还可以包括输入输出控制器1310以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1310还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1307通过连接到系统总线1305的大容量存储控制器(未示出)连接到中央处理单元1301。所述大容量存储设备1307及其相关联的计算机可读介质为计算机设备1300提供非易失性存储。也就是说，所述大容量存储设备1307可以包括诸如硬盘或者驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括随机存取记忆体(RAM，Random Access Memory)、只读存储器(ROM，Read Only Memory)、闪存或其他固态存储其技术，只读光盘(Compact Disc Read-Only Memory，CD-ROM)、数字通用光盘(Digital Versatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1304和大容量存储设备1307可以统称为存储器。

存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元1301执行，一个或多个程序包含用于实现上述方法的指令，中央处理单元1301执行该一个或多个程序实现上述各个方法实施例提供的方法。

根据本申请的各种实施例，所述计算机设备1300还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1300可以通过连接在所述系统总线1305上的网络接口单元1311连接到网络1313，或者说，也可以使用网络接口单元1311来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本申请实施例提供的方法中由计算机设备所执行的步骤。

本申请实施例还提供一种计算机可读存储介质，该可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述任一实施例所述的音频特征的提取方法。

本申请还提供了一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述各个方法实施例提供的音频特征的提取方法。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述任一方法实施例所述的音频特征的提取方法。

可选地，该计算机可读存储介质可以包括：ROM、RAM、固态硬盘(SSD，Solid StateDrives)或光盘等。其中，RAM可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种生成对抗网络的训练方法，其特征在于，所述生成对抗网络包括生成器和判别器，所述方法包括：

将样本音频按照时域划分为n个音频片段，n为大于1的整数；

提取所述n个音频片段对应的特征序列，所述特征序列包括与所述n个音频片段一一对应的n个频域向量；

将所述n个频域向量划分为至少两个连续片段组合，每个所述连续片段组合包括多个频域向量；

调用循环神经网络模型分别对所述至少两个连续片段组合进行编码，得到至少两个编码向量，将所述至少两个编码向量进行池化处理，得到所述样本音频的第一特征向量；

调用所述生成器对随机噪声进行处理，得到第二特征向量；

调用所述判别器对所述第一特征向量和所述第二特征向量分别进行判别，得到所述第一特征向量对应的判别结果和所述第二特征向量的判别结果，所述判别器用于判别输入的特征向量属于所述神经网络模型输出的真实特征向量的概率；

2.根据权利要求1所述的方法，其特征在于，所述调用所述循环神经网络模型对所述n个音频片段的特征序列进行处理，得到所述样本音频的所述第一特征向量，包括：

调用所述循环神经网络对所述n个音频片段的特征序列依次编码，得到所述样本音频的所述第一特征向量。

3.根据权利要求1所述的方法，其特征在于，所述将所述至少两个编码向量进行池化处理，得到所述样本音频的所述第一特征向量，包括：

将所述至少两个编码向量进行最大化池化处理，得到所述样本音频的所述第一特征向量；

或，

将所述至少两个编码向量进行平均池化处理，得到所述样本音频的所述第一特征向量。

4.根据权利要求1至3任一所述的方法，其特征在于，所述生成器包括卷积神经网络；

所述调用所述生成器对随机噪声进行处理，得到第二特征向量，包括：

调用所述卷积神经网络对所述随机噪声的特征序列进行卷积处理，得到所述第二特征向量。

5.根据权利要求1至3任一所述的方法，其特征在于，所述基于所述判别结果，采用目标损失函数对所述神经网络模型、生成器和所述判别器进行交替训练，得到训练后的所述生成对抗网络，包括：

步骤一，固定所述神经网络模型和所述生成器的网络参数，采用所述目标损失函数对所述判别器的网络参数进行训练，得到训练后的所述判别器；

步骤二，固定所述判别器的网络参数，采用所述目标损失函数对所述神经网络模型和所述生成器的网络参数进行训练，得到训练后的所述神经网络模型和所述生成器；

在未满足训练结束条件时，交替执行所述步骤一和所述步骤二。

6.一种音频的特征向量生成方法，其特征在于，所述方法包括：

获取音频；

提取所述音频的特征序列；

其中，所述生成对抗网络是采用神经网络模型对样本音频提取到的第一特征向量作为真实数据，结合判别器训练得到的，所述判别器用于判别输入的特征向量属于所述神经网络模型输出的真实特征向量的概率；所述神经网络模型用于，在将所述样本音频按照时域划分为n个音频片段，n为大于1的整数，提取所述n个音频片段对应的特征序列，所述特征序列包括与所述n个音频片段一一对应的n个频域向量，将所述n个频域向量划分为至少两个连续片段组合，每个所述连续片段组合包括多个频域向量之后，分别对所述至少两个连续片段组合进行编码，得到至少两个编码向量，将所述至少两个编码向量进行池化处理，得到所述样本音频的所述第一特征向量。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

采用所述音频的特征向量进行机器学习任务，所述机器学习任务包括：机器学习模型的训练任务和机器学习模型的预测任务中的至少一种。

8.一种生成对抗网络的训练装置，其特征在于，所述生成对抗网络包括生成器和判别器，所述装置包括：

调用模块，用于将样本音频按照时域划分为n个音频片段，n为大于1的整数；提取所述n个音频片段对应的特征序列，所述特征序列包括与所述n个音频片段一一对应的n个频域向量；将所述n个频域向量划分为至少两个连续片段组合，每个所述连续片段组合包括多个频域向量；调用循环神经网络模型分别对所述至少两个连续片段组合进行编码，得到至少两个编码向量，将所述至少两个编码向量进行池化处理，得到所述样本音频的第一特征向量；

所述调用模块，还用于调用所述判别器对所述第一特征向量和所述第二特征向量分别进行判别，得到所述第一特征向量对应的判别结果和所述第二特征向量的判别结果，所述判别器用于判别输入的特征向量属于所述神经网络模型输出的真实特征向量的概率；

9.一种音频的特征向量生成装置，其特征在于，所述装置包括：

获取模块，用于获取音频；

提取模块，用于提取所述音频的特征序列；

10.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至5任一所述的生成对抗网络的训练方法，或，如权利要求6或7所述的音频的特征向量生成方法。

11.一种计算机可读存储介质，其特征在于，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至5任一所述的生成对抗网络的训练方法，或，如权利要求6或7所述的音频的特征向量生成方法。