CN111445921A

CN111445921A - 音频特征的提取方法、装置、计算机设备及存储介质

Info

Publication number: CN111445921A
Application number: CN202010202360.5A
Authority: CN
Inventors: 缪畅宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-20
Filing date: 2020-03-20
Publication date: 2020-07-24
Anticipated expiration: 2040-03-20
Also published as: CN111445921B

Abstract

本申请公开了一种音频特征的提取方法、装置、计算机设备及存储介质，所述方法包括：获取音频的特征序列；调用时间序列相关层对所述特征序列进行时域自相关处理，得到自相关向量序列；调用时频域处理层对所述自相关向量序列进行时域特征提取处理和频域特征提取处理中的至少一种特征提取处理，得到所述音频的特征向量。本申请采用神经网络层对音频提取到的特征向量，能够表征音频的实质特征和深层特征。

Description

音频特征的提取方法、装置、计算机设备及存储介质

技术领域

本申请实施例涉及多媒体技术领域，特别涉及一种音频特征的提取方法、装置、计算机设备及存储介质。

背景技术

采用机器学习模型对音频特征进行处理时，需要提取向量形式的音频特征。

相关技术中提供了一种音频特征的提取方法，首先将音频在时域和频域构成的频谱图视为一张二维图像，该二维图像的横坐标是时间，纵坐标是频率；然后，采用对二维图像进行卷积的方式，对频谱图进行卷积得到音频的特征向量。其中，对二维图像进行卷积的方式是指：按照卷积核大小将二维图像划分为多个图像块，采用卷积核对二维图像上的图像块按照从左到右、从上到下的顺序进行卷积。

上述方法并没有考虑音频跟图像的本质区别：图像的两个维度是相同的，都代表像素点的排列，而音频的两个维度含义不同的，分别代表时域和频域。因此上述方法为音频所提取的特征向量较差。

发明内容

本申请实施例提供了一种音频特征的提取方法、装置、计算机设备及存储介质，对音频提取到的特征向量能够表征音频的实质特征和深层特征。所述技术方案如下：

一方面，本申请实施例提供了一种音频特征的提取方法，所述方法包括：

获取音频的特征序列；

调用时间序列相关层对所述特征序列进行时域自相关处理，得到自相关向量序列；

调用时频域卷积模块对所述自相关向量序列进行时域特征提取处理和频域特征提取处理，得到特征向量；

基于所述特征向量，确定所述音频的特征向量。

另一方面，本申请实施例提供了一种音频特征的提取装置，所述装置包括：

获取模块，用于获取音频的特征序列；

时间序列相关模块，用于对所述特征序列进行时域自相关处理，得到自相关向量序列；

时频域处理模块，用于对所述自相关向量序列进行时域特征提取处理和频域特征提取处理中的至少一种特征提取处理，得到所述音频的特征向量。

另一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的音频特征的提取方法。

另一方面，提供了一种计算机可读存储介质，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的音频特征的提取方法。

另一方面，提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得计算机执行如上述方面所述的音频特征的提取方法。

本申请实施例提供的技术方案带来的有益效果至少包括:

通过调用时间序列相关层对所述特征序列进行时域自相关处理得到自相关向量序列，以及调用时频域处理模块对所述自相关向量序列进行时域特征提取处理和频域特征提取处理中的至少一种特征提取处理，得到音频的特征向量，综合考虑音频在时域和频域上的特性，同时提取到音频在时域和频域上的实质特征，提高音频的特征向量的提取有效性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一个示例性实施例提供的音频的频谱图的原理示意图；

图2示出了本申请一个示例性实施例提供的音频特征的提取方法的原理示意图；

图3示出了本申请一个示例性实施例提供的音频特征的提取方法的流程图；

图4示出了本申请一个示例性实施例提供的音频特征的提取方法的流程图；

图5示出了本申请一个示例性实施例提供的音频特征的提取方法的流程图；

图6示出了本申请一个示例性实施例提供的沿时域方向进行卷积的原理示意图；

图7示出了本申请一个示例性实施例提供的沿频域方向进行卷积的原理示意图；

图8示出了本申请一个示例性实施例提供的音频特征的提取方法的流程图；

图9示出了本申请一个示例性实施例提供的沿时域方向进行卷积和池化的原理示意图；

图10示出了本申请一个示例性实施例提供的沿频域方向进行卷积和池化的原理示意图；

图11示出了本申请一个示例性实施例提供的向量拼接的原理示意图；

图12示出了本申请一个示例性实施例提供的歌曲推荐场景的示意图；

图13示出了本申请一个示例性实施例提供的歌曲打分场景的示意图；

图14示出了本申请一个示例性实施例提供的音频特征的提取装置的结构框图；

图15示出了本申请一个示例性实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

本实施例中以音频信号的特性处理进行示例描述，该处理原理还可以应用在其它具有与音频信号具有相似特性的媒体数据的处理中。其中，音频信号有时域和频域这两种维度的表达。也即，音频信号既可以表达为一个时间序列，也可以表达为一个频率序列。示例性的，先对音频信号进行时间维度的采样，比如每隔0.1s采样一个音频信号，得到离散的时间序列T₁～T_n，每个值代表音频在该采样点上的大小，然后再按固定时间段(比如3s)进行组合，比如时间段长度为3s采样间隔0.1s，那每组序列就包含了3s/0.1s＝30个值，比如T₁～T₃₀就是一组，称为G₁,T₃₁～T₆₀为G₂，依次类推。接着对每组时间序列做频域变换(包括但不限于FFT、MFCC、DFT等等)，将得到频域信号，代表一组时间序列里面包含的不同频率的分布，对频率信号也进行采样，比如10hz，就得到一个离散的频率序列。假设频率的上下限是0～f，那么每个频率序列的个数是f/10，每个G_i都可以表示成这么多个频率序列，只不过区别在于不同G_i的同样频率的值大小不同。对应到音乐上，音乐的某些部分低音很重，那这些G_i的低频值就很大，有些部分高音很高，那这些G_i的高频值很大。所以G_i既可以表示为时间序列T₁～T₃₀，也可以表示为频率序列，统一起来就是一张频谱图。如图1示例的频谱图，是一个真实的音频分解之后的频谱图，横轴是时间，时间段大概是1.75s左右，也就是每隔1.75s切一个时间片段；每个时间片段对应的频率是竖轴，频率上下限110hz～3520hz，灰度的深浅代表不同频率对应的值的大小。

图2示出了本申请提出的音频特征的提取方案。该提取方案中将“时间序列相关性技术”和“时频域卷积技术”进行融合，通过在时频域中的多尺度卷积，来实现音频特征的深度提取。示例性的，本申请实施例设置有时间序列相关层12和多尺度时频域卷积模块14。其中，在输入音频的频谱图后，时间序列相关层12对频谱图进行时域自相关处理，得到自相关向量序列；多尺度时频域卷积模块14对自相关向量序列同时进行时域卷积处理和频域卷积处理，得到特征向量。当时域卷积处理和频域卷积处理采用不同尺度的多个卷积核进行卷积时，能够卷积得到多尺度的特征向量h1、h2和h3等。基于特征向量h1、h2和h3得到音频的特征向量h，作为频谱图的最终特征表示。尺度是指提取特征向量时的卷积核尺寸。

图3示出了本申请一个示例性实施例提供的音频特征的提取方法的流程图。本实施例以该方法采用计算机设备执行来举例说明。该方法包括：

步骤302，获取音频的特征序列；

音频的特征序列包括：按照时间顺序排列的N个频域向量。每个频域向量为M维，每个维度代表该音频在一个频率F_M上的频率分布，相邻维度之间的频率差相同。其中，N和M均为大于1的整数。

采用预设采样间隔(比如每隔0.1秒)将音频在时间维度上进行采样，得到离散的时间序列T₁～T_n，每个T值代表音频在该采样点上的大小。

按照固定时间段(比如每个3秒时间段)进行分组，得到多个时间序列分组G₁～G_N，每个时间序列分组G_i中包括多个采样点，比如3秒/0.1秒＝30个采样点。

将属于同一时间序列分组G_i中的多个采样点变换成一个频域向量，得到按照时间顺序排列的N个频域向量。也即对上述每个时间序列分组做时域至频域的变换，得到每个时间序列分组G_i所对应的频域序列。其中，时频变换方式包括但不限于FFT(Fast FourierTransform，快速傅里叶变换)、DFT(Discrete Fourier Transform，离散傅里叶变换)、MFCC(Mel-scale Frequency Cepstral Coefficients，梅尔频率倒谱系数)。每个频域序列代表同一组时间序列分组G_i里面包含的不同频率的分布。对于N个频域序列分别进行采样，得到N个频域向量。

按照时间顺序排列的N个频域向量构成一个M*N的二维矩阵。该二维矩阵上与N对应的轴代表时域方向，与M对应的轴代表频域方向。M是频率分布上下限与频率采样间隔之间的商。

步骤304，调用时间序列相关层对特征序列进行时域自相关处理，得到自相关向量序列；

音频的特征序列包括按照时间顺序排列的N个频域向量。对于N个频域向量中的第i个频域向量，时域自相关处理是衡量其他频域向量对第i个频域向量的相关性的处理操作。可选地，时域自相关处理是衡量其他频域向量对第i个频域向量在时域方向上的相关性的处理操作。

服务器调用时间序列相关层对按照时间顺序排列的N个频域向量进行时域自相关处理，得到自相关向量序列。该自相关向量序列包括N个第一特征向量。

其中，按照时间顺序排列的N个第一特征向量构成一个M*N的二维矩阵。该二维矩阵上与N对应的轴代表时域方向，与M对应的轴代表频域方向。M是频率分布上下限与频率采样间隔之间的商。

步骤306，调用时频域处理层对自相关向量序列进行时域特征提取处理和频域特征提取处理中的至少一种特征提取处理，得到音频的特征向量。

时域特征提取处理是指沿时间方向进行特征提取处理，频率特征提取处理是指沿频率方向进行特征提取处理。时域特征提取处理和频域特征提取处理是并列且不同的特征提取处理。

特征提取处理包括但不限于：卷积处理和池化处理中的至少一种。比如，特征提取处理包括卷积处理，又比如，特征提取处理包括卷积处理和池化处理。可选地，卷积处理是多尺度卷积处理。

在不同实施例中，卷积处理、池化处理的操作顺序可以有很多种组合：比如，先卷积、再池化；或者先池化、再卷积；或者先全连接层、再卷积、再全连接、再池化；也可以多次重复(比如ResNet，堆叠很多层卷积、池化)。

计算机设备调用时频域处理层对自相关向量序列进行时域特征提取处理，得到音频的特征向量；或，计算机设备调用时频域处理层对自相关向量序列进行频域特征提取处理，得到音频的特征向量；或，计算机设备调用时频域处理层对自相关向量序列进行时域特征提取处理和频域特征提取处理，得到音频的特征向量。

在本实施例中，以计算机设备调用时频域处理层对自相关向量序列进行时域特征提取处理和频域特征提取处理，得到音频的特征向量来举例说明。

综上所述，本实施例提供的方法，通过调用时间序列相关层对所述特征序列进行时域自相关处理得到自相关向量序列，以及调用时频域卷积模块对所述自相关向量序列进行时域特征提取处理和频域特征提取处理，得到音频的特征向量，综合考虑音频在时域和频域上的特性，同时提取到音频在时域和频域上的实质特征，提高音频的特征向量的提取有效性。

针对上述步骤304，计算机设备调用时间序列相关层执行如下步骤304a和步骤304b，如图4所示：

步骤304a，计算第i个频域向量和除第i个频域向量之外的其他频域向量之间的第i相关性分数，i为不大于N的整数；

设音频的特征序列包括：按照时间顺序排列的N个频域向量{G₁,G₂,...,G_n}。每个G_i都是一个频域向量。为了衡量特征序列中的其他频域向量和第i个频域向量之间的相关性，针对第i个频域向量引入如下的相关性计算公式。

score(G_i)＝(G₁*G_i+G₂*G_i...+G_n*G_i–G_i*G_i)/(G₁^2+G₂^2+...+G_n^2–G_i^2)

也即，计算机设备计算第i个频域向量和除第i个频域向量之外的其他频域向量的乘积和；计算除第i个频域向量之外的其他频域向量的平方和；将乘积和和平方和的商，确定为第i个频域向量和除第i个频域向量之外的其他频域向量之间的第i相关性分数。

需要注意的是，在上述公式的分子和分母都需要减掉G_i*G_i(或者说G_i^2)，因为是要衡量其他频域向量对第i个频域向量G_i的影响。但不排除某些实施例中，在上述公式的分子和分母上保留G_i*G_i(或者说G_i^2)的可能性。

步骤304b，以第i相关性分数作为第i个频域向量的相关性权重，计算N个频域向量的加权序列，得到自相关向量序列。

在计算得到每个频域向量G_i对应的score(G_i)，以第i相关性分数作为第i个频域向量的相关性权重计算自相关向量序列{t₁,...,t_n}，引入如下计算公式。

{t₁,...,t_n}＝{G₁*score(G₁),...,G_i*score(G_i),...,G_n*score(G_n)}。

可选地，N个频域向量的加权序列是指：由第i个相关性分数和第i个频域向量之间的加权乘积，按照时间顺序进行排列所形成的序列。

综上所述，本实施例提供的方法，通过时间序列相关层对特征序列进行时域自相关处理，能够提取到不同的频域向量之间在时域维度上的自相关特性，提高对音频在时域维度的特征提取有效性。

针对上述步骤306，以时频域处理层包括：时域卷积核和频域卷积核为例说明，但可以只进行时域卷积或只进行频域卷积，本申请对此不限定。计算机设备调用时频域处理层执行如下步骤306a至步骤306c，如图5所示：

步骤306a，调用时域卷积核沿时域方向对自相关向量序列进行时域卷积处理，得到时域卷积向量；

时域方向是指沿着时间由早到晚的方向(或者由晚到早的方向)对自相关向量序列进行时域卷积处理，得到时域卷积向量。

可选地，自相关向量序列可视为M行*N列的矩阵，每个列是一个M维的频域向量。假设时域卷积核的大小为M*P，P小于N。时域方向是指沿着0～N方向对P个相邻的频域向量进行卷积处理。

如图6所示，假设时域卷积核的大小为M*3，按照时域方向进行第一次卷积时，对频域向量t1、频域向量t2和频域向量t3进行卷积得到t'1；按照时域方向进行第二次卷积时，对频域向量t2、频域向量t3和频域向量t4进行卷积得到t'2；按照时域方向进行第三次卷积时，对频域向量t3、频域向量t4和频域向量t5进行卷积得到t'3，以此类推，最终卷积得到N-3+1个时域卷积向量t'i。

其中，每个t'i是由P个频域向量卷积后压缩得到的新频域向量。每个t'i用于表示在卷积前的P个频域向量之间的关联关系。

步骤306b，调用频域卷积核沿频域方向对自相关向量序列进行频域卷积处理，得到频域卷积向量；

频域方向是指沿着采样频率由小到大的方向(或者由大到小的方向)对自相关向量序列进行频域卷积处理，得到频域卷积向量。

可选地，自相关特征序列可视为M行*N列的矩阵，每个行是一个N维的时域向量。假设频域卷积核的大小为Q*N，Q小于M。频域方向是指沿着0～M方向对Q个相邻的时域向量进行卷积处理。

如图7所示，假设频域卷积核的大小为3*N，按照频域方向进行第一次卷积时，对时域向量f1、时域向量f2和时域向量f3进行卷积得到f'1；按照时域方向进行第二次卷积时，对时域向量f2、时域向量f3和时域向量f4进行卷积得到f'2；按照时域方向进行第三次卷积时，对时域向量f3、时域向量f4和时域向量f5进行卷积得到f'3，以此类推，最终卷积得到N-3+1个频域卷积向量f'i。

其中，每个f'i是由Q个时域向量卷积后压缩得到的新时域向量。每个f'i用于表示在卷积前的Q个时域向量之间的关联关系。

步骤306c，将时域卷积向量和频域卷积向量进行拼接，得到音频的特征向量。

以时域卷积向量包括t'1、t'2和t'3，频域卷积向量包括f'1、f'2和f'3为例，在一个设计中，按照先时域后频域的第一拼接方式，拼接得到音频的特征向量{t'1，t'2，t'3，f'1，f'2，f'3}；在另一个设计中，按照时域和频域交替拼接的第二拼接方式，拼接得到音频的特征向量{t'1，f'1，t'2，f'2，t'3，f'3}，本申请实施例对此不加以限定。

综上所述，本实施例提供的方法，通过时域卷积和频域卷积对特征序列进行时域自相关处理，能够利用音频的特征序列的本身特性，提取到不同的频域向量之间在时域维度和频域维度上的深层特征，提高对音频在时域维度的特征提取有效性。

在基于图5的可选实施例中，计算机设备还可以引入时域池化操作和频域池化操作中的至少一种池化操作，如图8所示。

同一个(或同一尺度)时域卷积核得到的时域卷积向量包括：多个时域卷积向量构成的时域卷积向量序列。

同一个(或同一尺度)频域卷积核得到频域卷积向量包括：多个频域卷积向量构成的频域卷积向量序列。

上述两个步骤的实现，参见上一实施例的相关描述。

步骤306d，将时域卷积向量序列沿着时域方向进行池化处理，得到一个池化后的时域卷积向量；

在进行时域池化操作时，也是沿着时间方向进行池化，且池化维度跟向量维度一致。如图9所示，在时域池化操作后，将上述N-P+1个时域卷积向量t'1,t'2,…t'_N-P+1压缩成一个池化后的时域卷积向量t”。也即池化后的时域卷积向量包括一个元素，使得池化后的时域卷积向量t”的物理意义依然得到保留，依然可以看成从时间维度压缩成新的向量。该时域池化向量t”用于表示多个时域卷积向量的浓缩特性。

步骤306e，将频域卷积向量序列沿着频域方向进行池化处理，得到一个池化后的频域卷积向量；

在进行频域池化操作时，也是沿着频域方向进行池化，且池化维度跟向量维度一致。如图10所示，在频域池化操作后，将上述N-P+1个频域卷积向量f'1,f'2,…f'_N-P+1压缩成一个池化后的频域卷积向量f”。也即池化后的频域卷积向量包括一个元素，使得池化后的频域卷积向量f”的物理意义依然得到保留，依然可以看成从频域维度压缩成新的向量。该频域池化向量f”用于表示多个频域卷积向量的浓缩特性。

步骤306f，将池化后的时域卷积向量和池化后的频域卷积向量进行拼接，得到音频的特征向量。

如图11所示，将池化后的时域卷积向量t”和池化后的频域卷积向量f”进行拼接，得到音频的特征向量{t”，f”}。

综上所述，本实施例提供的方法，通过采用“卷积+池化”的方式来提取音频的特征向量，在保留物理含义不变的情况下，简化特征向量的复杂度，从而加快后续的计算过程。

在基于图5或图8所示的可选实施例中，时域卷积核包括不同尺度的K个时域卷积核，K为大于1的整数。步骤306a可替代实现成为：分别调用K个不同时域卷积核沿时域方向对自相关向量序列进行时域卷积处理，得到K个不同尺度的时域卷积向量。每个尺度下的时域卷积向量可以为多个，比如N-P+1个。

可选地，对于每个尺度下的多个时域卷积向量进行池化处理，分别得到一个池化后的时域卷积向量。则对K个不同尺度下的多个时域卷积向量进行池化处理，最终会得到K个池化后的时域卷积向量。

在基于图5或图8所示的可选实施例中，频域卷积核包括不同尺度的K个频域卷积核，K为大于1的整数。步骤306b可替代实现成为：分别调用K个不同频域卷积核沿频域方向对自相关向量序列进行频域卷积处理，得到K个不同尺度的频域卷积向量。每个尺度下的频域卷积向量可以为多个，比如M-P+1个。

可选地，对于每个尺度下的多个频域卷积向量进行池化处理，分别得到一个池化后的频域卷积向量。则对K个不同尺度下的多个频域卷积向量进行池化处理，最终会得到K个池化后的频域卷积向量。

可选地，对于每个尺度j下，将池化后的时域卷积向量t”j和池化后的频域卷积向量f”j进行拼接，得到音频在该尺度j下的特征向量{t”j，f”j}。再按照不同尺度由小到大的顺序或由大到小的顺序，拼接得到该音频的多尺度特征向量序列{t”1，f”1，t”2，f”2，…，t”k，f”k}，或者，{t”1，t”2，…，t”k，f”1，f”2，…，f”k}。

综上所述，采用不同尺度的卷积核进行多尺度的特征提取，能够提取出不同层次的音频特征，提高音频的特征向量的提取有效性。

上述各个实施例所提供的音频特征的提取方法，在提取到音频的特征向量后，可以将该特征向量用于有关音频的机器学习训练、机器学习识别、机器学习分类中的至少一种机器学习任务。比如，将特征向量用于音频匹配模型的训练和识别，该音频匹配模型是用于在音频匹配、音乐分类、音乐打分、个性化推荐等场景下，对两个音频进行相似度预测的机器学习模型。

在个性化推荐场景中，服务器用于在得到客户端提供的第一音频的第一特征向量后，获取音频库中第二音频的第二特征向量，使用音频匹配模型查找出与第一音频具有较高相似度的第二音频，将第二音频推荐给客户端。其中，第一特征向量和第二特征向量是采用本申请实施例提供的方法计算得到的。

在音频打分场景中，服务器用于在得到客户端提供的第一音频的第一特征向量后，获取音频库中第二音频的第二特征向量，使用音频匹配模型计算第一音频和第二音频之间的相似度，将相似度分数具有较高相似度的第二音频，推荐给客户端。其中，第一特征向量和第二特征向量是采用本申请实施例提供的方法计算得到的。

在音频匹配场景中，服务器用于在得到客户端提供的第一音频的第一特征向量后，获取音频库中第二音频的第二特征向量，使用音频匹配模型查找出与第一音频具有极高相似度的第二音频，将第二音频的音频信息(歌曲名、歌手、风格、年份、唱片公司等信息)推荐给客户端。其中，第一特征向量和第二特征向量是采用本申请实施例提供的方法计算得到的。

在音频分类场景中，服务器用于对音频库中的两两歌曲之间计算相似度，将相似度高于阈值的歌曲归为同一个类簇，从而划分为同一类歌曲。其中，第一特征向量和第二特征向量是采用本申请实施例提供的方法计算得到的。

在一个示意性的例子中，上述音频的特征向量用于对音频匹配模型的训练和预测。该音频匹配模型是基于机器学习的全音频匹配模型或者音频片段匹配模型。以该音频匹配模型是全音频匹配模型为例，采用本申请实施例提供的音频的特征向量进行训练后，能够用于对两个音频之间的相似度预测。

音频推荐场景：

参考图12所示出的例子，用户使用的终端180上运行有音频播放应用程序，用户在音频播放应用程序上播放、收藏或点赞了第一音频(A歌)，服务器160可以将第一音频(A歌)的第一音频向量，与多个第二音频(B歌)的第二音频向量进行比较，确定出第一音频和第二音频的相似概率。根据相似概率由高到低的顺序，将与A歌比较相似的B歌、C歌、D歌和E歌作为推荐歌曲发送给终端180上的音频播放应用程序，使得用户能够听到更多符合自身喜好的歌曲。

唱歌打分场景：

参考图13所示出的例子，用户使用的终端180上运行有唱歌应用程序，用户在唱歌应用程序上演唱了一首歌曲，服务器160可以将第一音频(用户演唱的歌曲)的第一音频向量，与第二音频(原唱歌曲或明星歌曲或高分歌曲)的第二音频向量进行比较，确定出第一音频和第二音频的相似概率。根据相似概率给出用户的演唱分数，将演唱分数反馈给唱歌应用程序上进行显示，以利于用户提高自身的歌唱水平。

图14示出了本申请一个示例性实施例提供的音频特征的提取装置的框图，所述装置包括：

获取模块1420，用于获取音频的特征序列；

时间序列相关模块1440，用于对所述特征序列进行时域自相关处理，得到自相关向量序列；

时频域处理模块1460，用于对所述自相关向量序列进行时域特征提取处理和频域特征提取处理中的至少一种特征提取处理，得到所述音频的特征向量。

在一个可选的实施例中，所述特征序列包括：按照时序排列的N个频域向量，N为大于1的整数；

所述时间序列相关模块1440，用于计算第i个频域向量和除所述第i个频域向量之外的其他频域向量之间的第i相关性分数，i为不大于N的整数；以所述第i相关性分数作为所述第i个频域向量的相关性权重，计算所述N个频域向量的加权序列，得到所述自相关向量序列。

在一个可选的实施例中，所述时间序列相关模块1440，用于计算所述第i个频域向量和除所述第i个频域向量之外的其他频域向量的乘积和；计算除所述第i个频域向量之外的其他频域向量的平方和；将所述乘积和和所述平方和的商，确定为所述第i个频域向量和除所述第i个频域向量之外的其他频域向量之间的第i相关性分数。

在一个可选的实施例中，所述时频域处理模块1460包括：时域卷积模块1462、频域卷积模块1464和拼接输出模块1466；

所述时域卷积模块1462，用于调用所述时域卷积核沿时域方向对所述自相关向量序列进行时域卷积处理，得到时域卷积向量；

所述频域卷积模块1464，用于调用所述频域卷积核沿频域方向对所述自相关向量序列进行频域卷积处理，得到频域卷积向量；

所述拼接输出模块1466，用于将所述时域卷积向量和所述频域卷积向量进行拼接，得到所述特征向量。

在一个可选的实施例中，所述时域卷积核包括不同尺度的K个时域卷积核，K为大于1的整数；

所述时域卷积模块1462，用于分别调用所述K个不同时域卷积核沿时域方向对所述自相关向量序列进行时域卷积处理，得到K个不同尺度的时域卷积向量。

在一个可选的实施例中，同一个所述时域卷积核得到的所述时域卷积向量包括多个时域卷积向量构成的时域卷积向量序列，所述装置还包括：

时域池化模块1463，用于将所述多个时域卷积向量沿着时域方向进行池化处理，得到一个池化后的时域卷积向量。

在一个可选的实施例中，所述频域卷积核包括不同尺度的K个频域卷积核，K为大于1的整数；

所述频域卷积模块1464，用于分别调用所述K个不同频域卷积核沿频域方向对所述自相关向量序列进行频域卷积处理，得到K个不同尺度的频域卷积向量。

在一个可选的实施例中，同一个所述频域卷积核得到所述频域卷积向量包括多个频域卷积向量构成的频域卷积向量序列，所述装置还包括：

频域池化模块1465，用于将所述多个频域卷积向量沿着频域方向进行池化处理，得到一个池化后的频域卷积向量。

在一个可选的实施例中，所述装置还包括：

机器学习模块1480，用于采用所述音频的特征向量进行机器学习任务，所述机器学习任务包括：机器学习模型的训练任务和机器学习模型的预测任务中的至少一种。

需要说明的是：上述实施例提供的音频特征的提取装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频特征的提取装置与音频特征的提取方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图15示出了本申请一个示例性实施例提供的计算机设备的结构示意图。具体来讲：所述计算机设备1500包括中央处理单元(Central Processing Unit，CPU)1501、包括随机存取存储器1502和只读存储器1503的系统存储器1504，以及连接系统存储器1504和中央处理单元1501的系统总线1505。所述计算机设备1500还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(Input/Output，I/O系统)1506，和用于存储操作系统1515、应用程序1514和其他程序模块1515的大容量存储设备1507。

所述基本输入/输出系统1506包括有用于显示信息的显示器1508和用于用户输入信息的诸如鼠标、键盘之类的输入设备1509。其中所述显示器1508和输入设备1509都通过连接到系统总线1505的输入输出控制器1510连接到中央处理单元1501。所述基本输入/输出系统1506还可以包括输入输出控制器1510以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1510还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1507通过连接到系统总线1505的大容量存储控制器(未示出)连接到中央处理单元1501。所述大容量存储设备1507及其相关联的计算机可读介质为计算机设备1500提供非易失性存储。也就是说，所述大容量存储设备1507可以包括诸如硬盘或者驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括随机存取记忆体(RAM，Random Access Memory)、只读存储器(ROM，Read Only Memory)、闪存或其他固态存储其技术，只读光盘(Compact Disc Read-Only Memory，CD-ROM)、数字通用光盘(Digital Versatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1504和大容量存储设备1507可以统称为存储器。

存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元1501执行，一个或多个程序包含用于实现上述方法的指令，中央处理单元1501执行该一个或多个程序实现上述各个方法实施例提供的方法。

根据本申请的各种实施例，所述计算机设备1500还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1500可以通过连接在所述系统总线1505上的网络接口单元1511连接到网络1512，或者说，也可以使用网络接口单元1511来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本申请实施例提供的方法中由计算机设备(或服务器)所执行的步骤。

本申请实施例还提供一种计算机可读存储介质，该可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述任一实施例所述的音频特征的提取方法。

本申请还提供了一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述各个方法实施例提供的音频特征的提取方法。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述任一方法实施例所述的音频特征的提取方法。

可选地，该计算机可读存储介质可以包括：ROM、RAM、固态硬盘(SSD，Solid StateDrives)或光盘等。其中，RAM可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频特征的提取方法，其特征在于，所述方法包括：

获取音频的特征序列；

调用时频域处理层对所述自相关向量序列进行时域特征提取处理和频域特征提取处理中的至少一种特征提取处理，得到所述音频的特征向量。

2.根据权利要求1所述的方法，其特征在于，所述特征序列包括：按照时序排列的N个频域向量，N为大于1的整数；

所述调用时间序列相关层对所述特征序列进行时域自相关处理，得到自相关向量序列，包括：

计算第i个频域向量和除所述第i个频域向量之外的其他频域向量之间的第i相关性分数，i为不大于N的整数；

以所述第i相关性分数作为所述第i个频域向量的相关性权重，计算所述N个频域向量的加权序列，得到所述自相关向量序列。

3.根据权利要求2所述的方法，其特征在于，所述计算第i个频域向量和除所述第i个频域向量之外的其他频域向量之间的第i相关性分数，包括：

计算所述第i个频域向量和除所述第i个频域向量之外的其他频域向量的乘积和；

计算除所述第i个频域向量之外的其他频域向量的平方和；

将所述乘积和和所述平方和的商，确定为所述第i个频域向量和除所述第i个频域向量之外的其他频域向量之间的第i相关性分数。

4.根据权利要求1至3任一所述的方法，其特征在于，所述时频域处理模块包括：时域卷积核和频域卷积核；

所述调用时频域处理层对所述自相关向量序列进行时域特征提取处理和频域特征提取处理中的至少一种特征提取处理，得到所述音频的特征向量，包括：

调用所述时域卷积核沿时域方向对所述自相关向量序列进行时域卷积处理，得到时域卷积向量；

调用所述频域卷积核沿频域方向对所述自相关向量序列进行频域卷积处理，得到频域卷积向量；

将所述时域卷积向量和所述频域卷积向量进行拼接，得到所述特征向量。

5.根据权利要求4所述的方法，其特征在于，所述时域卷积核包括不同尺度的K个时域卷积核，K为大于1的整数；

所述调用所述时域卷积核沿时域方向对所述自相关向量序列进行时域卷积处理，得到时域卷积向量，包括：

分别调用所述K个不同时域卷积核沿时域方向对所述自相关向量序列进行时域卷积处理，得到K个不同尺度的时域卷积向量。

6.根据权利要求4所述的方法，其特征在于，同一个所述时域卷积核得到的所述时域卷积向量包括多个时域卷积向量构成的时域卷积向量序列，所述方法还包括：

将所述时域卷积向量序列沿着时域方向进行池化处理，得到一个池化后的时域卷积向量。

7.根据权利要求4所述的方法，其特征在于，所述频域卷积核包括不同尺度的K个频域卷积核，K为大于1的整数；

所述调用所述频域卷积核沿频域方向对所述自相关向量序列进行频域卷积处理，得到频域卷积向量，包括：

分别调用所述K个不同频域卷积核沿频域方向对所述自相关向量序列进行频域卷积处理，得到K个不同尺度的频域卷积向量。

8.根据权利要求4所述的方法，其特征在于，同一个所述频域卷积核得到所述频域卷积向量包括多个频域卷积向量构成的频域卷积向量序列，所述方法还包括：

将所述频域卷积向量序列沿着频域方向进行池化处理，得到一个池化后的频域卷积向量。

9.根据权利要求1至8任一所述的方法，其特征在于，所述方法还包括：

采用所述音频的特征向量进行机器学习任务，所述机器学习任务包括：机器学习模型的训练任务和机器学习模型的预测任务中的至少一种。

10.一种音频特征的提取装置，其特征在于，所述装置包括：

获取模块，用于获取音频的特征序列；

11.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至9任一所述的音频特征的提取方法。

12.一种计算机可读存储介质，其特征在于，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至9任一所述的音频特征的提取方法。