CN110688520B

CN110688520B - 音频特征提取方法、装置及介质

Info

Publication number: CN110688520B
Application number: CN201910893618.8A
Authority: CN
Inventors: 王征韬
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2019-09-20
Filing date: 2019-09-20
Publication date: 2023-08-08
Anticipated expiration: 2039-09-20
Also published as: CN110688520A

Abstract

本发明实施例公开了音频特征提取方法、装置及介质，其中，所述方法包括：对音频信号进行节拍点检测，得到各个节拍点在所述音频信号中的位置；将所述音频信号中相邻节拍点之间的信号确定为音频段；使用预设音频特征提取算法对各个所述音频段进行音频特征提取，得到各个所述音频段的音频向量；将各个所述音频向量进行组合，得到所述音频信号的音频特征。采用本发明实施例，可以在确保音频信号的结构完整性的情况下，有效缩短音频特征长度。

Description

音频特征提取方法、装置及介质

技术领域

本申请涉及计算机技术领域，尤其涉及音频特征提取方法、装置及介质。

背景技术

目前，音频特征提取可以应用在音频的分类或检索等场景中。现有的音频特征提取方法中，通过截长补短或者随机取样等方法对音频信号进行分段，得到多个音频段，对每个音频段进行音频特征提取。但是通过截长补短或者随机取样等方法对音频信号进行分段，将破坏音频信号的结构完整性。若对整个音频信号进行音频特征提取，音频特征长度较大，以音频信号为歌曲为例，歌曲的时长平均在4分钟(min)以上，而使用短时傅里叶变换(Short-Time Fourier Transform，STFT)技术仅能对较短时长的音频信号进行音频特征提取，通常为20～40ms。基于此，使用STFT技术对一首歌曲进行音频特征提取，得到的音频特征在时间轴的长度达到6000帧以上。目前，没有工具能对上千帧的音频特征进行处理，即使是以处理长序列见长的长短期记忆网络(Long Short-Term Memory，LSTM)，其有效的处理长度在500帧以下。另外，通过截长补短或者随机取样等方法对音频信号进行分段，破坏了音频信号的结构完整性。因此，如何在确保音频信号的结构完整性的情况下，有效缩短音频特征长度，是当前亟需解决的技术问题。

发明内容

本发明实施例提供了音频特征提取方法、装置及介质，可以在确保音频信号的结构完整性的情况下，有效缩短音频特征长度。

第一方面，本发明实施例提供了一种音频特征提取方法，该方法包括：

对音频信号进行节拍点检测，得到各个节拍点在所述音频信号中的位置；

将所述音频信号中相邻节拍点之间的信号确定为音频段；

使用预设音频特征提取算法对各个所述音频段进行音频特征提取，得到各个所述音频段的音频向量；

将各个所述音频向量进行组合，得到所述音频信号的音频特征。

在一种实现方式中，将所述音频信号中相邻节拍点之间的信号确定为音频段之后，还包括：

获取所述音频信号的节拍数量，所述节拍数量为所述音频信号所包含的节拍点的数量总和；

当所述节拍数量大于第一预设阈值时，将相邻音频段合并为一个音频段。

在一种实现方式中，获取所述音频信号的节拍数量之后，还包括：

当所述节拍数量小于第二预设阈值时，将各个所述音频段拆分为两个音频段，所述两个音频段中每个音频段的时长相同。

在一种实现方式中，使用预设音频特征提取算法对各个所述音频段进行音频特征提取，得到各个所述音频段的音频向量，包括：

将各个所述音频段作为预设自编码器的输入，得到输出结果，所述输出结果包括各个所述音频段的音频向量。

在一种实现方式中，将各个所述音频段作为预设自编码器的输入，得到输出结果，包括：

通过所述预设自编码器使用序列到序列模型对各个所述音频段进行处理，得到所述输出结果，各个所述音频向量的向量长度相同。

在一种实现方式中，对音频信号进行节拍点检测，得到各个节拍点在所述音频信号中的位置，包括：

使用预设节拍跟踪算法对所述音频信号进行节拍点检测，得到各个所述节拍点在所述音频信号中的位置。

在一种实现方式中，将各个所述音频向量进行组合，得到所述音频信号的音频特征，包括：

将各个所述音频段的音频向量按照各个所述音频段的时间顺序进行组合，得到所述音频信号的音频特征。

另一方面，本发明实施例提供了一种音频特征提取装置，该装置具有实现第一方面所述的音频特征提取方法的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一种实现方式中，该音频特征提取装置包括检测模块、确定模块、提取模块和组合模块。其中，检测模块，用于对音频信号进行节拍点检测，得到各个节拍点在所述音频信号中的位置；确定模块，用于将所述音频信号中相邻节拍点之间的信号确定为音频段；提取模块，用于使用预设音频特征提取算法对各个所述音频段进行音频特征提取，得到各个所述音频段的音频向量；组合模块，用于将各个所述音频向量进行组合，得到所述音频信号的音频特征。

第三方面，本发明实施例提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如第一方面所涉及的音频特征提取方法。

第四方面，本申请实施例提供一种电子设备，包括处理器和存储器，所述处理器与所述存储器融合，其特征在于，

存储器，用于存储指令；

所述处理器，用于执行所述存储器中的指令，使得所述电子设备执行如第一方面所述的方法。

第五方面，本申请实施例提供一种芯片系统，其特征在于，所述芯片系统包括处理器和接口电路，所述接口电路与所述处理器耦合，

所述处理器用于执行计算机程序或指令，以实现如第一方面所述的方法；

所述接口电路用于与所述芯片系统之外的其它模块进行通信。

本申请实施例通过对音频信号进行节拍点检测，得到各个节拍点在音频信号中的位置，将音频信号中相邻节拍点之间的信号确定为音频段，使用预设音频特征提取算法对各个音频段进行音频特征提取，得到各个音频段的音频向量，将各个音频向量进行组合，得到音频信号的音频特征。由于音乐小节是音乐重复的基本单元，而节拍是构成音乐小节的要素，因此基于节拍点对音频信号进行分段，可确保音频信号的结构完整性。另外，将音频信号中相邻节拍点之间的信号确定为音频段，可有效缩短音频特征长度。

附图说明

为了更清楚地说明本发明实施例或背景技术中的技术方案，下面将对本发明实施例或背景技术中所需要使用的附图进行说明。

图1是本发明实施例公开的一种音频特征提取方法的流程示意图；

图2是本发明实施例公开的一种音频信号的示意图；

图3是本发明实施例公开的另一种音频信号的示意图；

图4是本发明实施例公开的另一种音频信号的示意图；

图5是本发明实施例公开的一种音频特征提取装置的结构示意图；

图6是本发明实施例公开的一种电子设备的结构示意图。

具体实施方式

下面结合本发明实施例中的附图对本发明实施例进行描述。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

传统的音频特征提取方法中，如果音频信号的时长较大，例如歌曲的时长平均在4min以上，则无法直接对整个音频信号进行音频特征提取。基于此，可以通过截长补短或者随机取样等方法对音频信号进行分段，得到多个音频段，对每个音频段进行音频特征提取。而使用STFT技术仅能对较短时长的音频信号进行音频特征提取，通常为20～40ms。基于此，使用STFT技术对一首歌曲进行音频特征提取，得到的音频特征在时间轴的长度达到6000帧以上。目前，没有工具能对上千帧的音频特征进行处理，即使是以处理长序列见长的LSTM，其有效的处理长度在500帧以下。

针对上述技术问题，本申请提出了音频特征提取方法，可对音频信号进行节拍点检测，得到各个节拍(beat)点在音频信号中的位置，将音频信号中相邻节拍点之间的信号确定为音频段，使用预设音频特征提取算法对各个音频段进行音频特征提取，得到各个音频段的音频向量，将各个音频向量进行组合，得到音频信号的音频特征。本申请实施例中，由于音乐小节是音乐重复的基本单元，而节拍是构成音乐小节的要素，因此基于节拍点对音频信号进行分段，可确保音频信号的结构完整性。另外，音频信号的节拍数(Beat PerMinute，BPM)在40～240这一范围内，将音频信号中相邻节拍点之间的信号确定为音频段，假设该音频信号的时长为4min，那么该音频信号包括的音频段数量在160～960这一范围内，得到的音频信号的音频特征的长度也在160～960这一范围内，相对传统使用STFT技术得到的音频特征在时间轴的长度达到6000帧以上，本申请实施例可有效缩短音频特征长度。

其中，节拍，也可以称为音乐节拍，是指强拍和弱拍的组合规律，具体是指在乐谱中每一小节的音符总长度，常见的1/4，2/4，3/4，4/4，3/8，6/8，7/8，9/8，12/8拍等等。例如，1/4拍是4分音符为一拍，每小节1拍。2/4拍是4分音符为一拍，每小节2拍，可以有2个4分音符。每小节的长度是固定的。一首乐曲的节拍是作曲时就固定的，不会改变。一首乐曲可以是由若干种节拍相结合组成的。

音乐总是由强拍和弱拍交替进行的，这种交替不能杂乱无章、任意安排，而是按照一定的规律构成最小的节拍集合，即小节，然后以小节为基础循环往复，得到一个完整的乐谱。两个小节之间用“小节线”隔开。小节线是一条与谱表垂直的细线，上顶五线，下接一线，正好将谱表切断，无论上、下加线离开谱表多么远，小节线都不能超出谱表之外。乐谱的最后一个小节画两条小节线，小节线后面的那一拍是强拍，并且，每个小节只有一个强拍，其余均为弱拍。

本申请实施例公开的音频特征提取方法可以应用在个人电脑、智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑或者可穿戴设备等电子设备中，也可以应用在电子设备运行的多媒体播放应用(例如QQ音乐播放器)或者多媒体编辑应用(例如Au)中。

基于上述描述，本发明实施例提出一种如图1所示的音频特征提取方法，该音频特征提取方法可以包括以下步骤S101-S104：

S101，对音频信号进行节拍点检测，得到各个节拍点在音频信号中的位置。

具体实现中，电子设备可以使用预设节拍跟踪算法对音频信号进行节拍点检测，得到各个节拍点在音频信号中的位置。上述音频信号可以为电子设备中存储的音频信号，或者从其他电子设备接收到的音频信号，或者通过互联网获取到的音频信号，具体不受本申请实施例的限制。

示例性的，电子设备可以将音频信号作为输入参数，预设节拍跟踪算法对该输入参数进行处理，得到各个节拍点的时间信息，电子设备可以基于时间信息确定对应节拍点在音频信号中的位置。

S102，将音频信号中相邻节拍点之间的信号确定为音频段。

以图2所示的音频信号的示意图为例，假设音频信号的时长为4min，该音频信号包括400个节拍点，分别为1节拍点，节拍点2，…，节拍点399和节拍点400，节拍点1的时间信息为1秒(s)，节拍点2的时间信息为2s，节拍点3的时间信息为2.5s，节拍点4的时间信息为3s，节拍点5的时间信息为4s，那么电子设备可以将音频信号中[1s，2s)这一时间区间的信号确定为第一音频段，将音频信号中[2s，2.5s)这一时间区间的信号确定为第二音频段，将音频信号中[2.5s，3s)这一时间区间的信号确定为第三音频段，将音频信号中[3s，4s)这一时间区间的信号确定为第四音频段。

在一种实现方式中，电子设备将音频信号中相邻节拍点之间的信号确定为音频段之后，可以获取音频信号的节拍数量(Beat Per Minute，BPM)，当节拍数量大于第一预设阈值时，电子设备可以将相邻音频段合并为一个音频段。当节拍数量小于第二预设阈值时，电子设备可以将各个音频段拆分为两个音频段，两个音频段中每个音频段的时长相同。

具体实现中，如果音频信号包括的音频段的数量为n，那么合并后的音频段的数量为n为正整数。例如，如果音频信号包括的音频段的数量为10，电子设备将相邻音频段合并为一个音频段，合并后的音频段的数量为5。又如，如果音频信号包括的音频段的数量为9，电子设备将相邻音频段合并为一个音频段，合并后的音频段的数量为5。

具体实现中，如果音频信号包括的音频段的数量为m，那么拆分后的音频段的数量为2m，m为正整数。例如，如果音频信号包括的音频段的数量为20，电子设备将各个音频段拆分为两个音频段，拆分后的音频段的数量为40。

在该实施例中，若音频段的数量较大，则无法有效缩减音频特征的尺寸；若音频段数量较小，则音频特征的粒度较粗，无法有下实现音频特征的提取。本申请实施例在节拍数量大于第一预设阈值时，将相邻音频段合并为一个音频段，在拍数量小于第二预设阈值时，将各个音频段拆分为两个音频段，可在有效实现音频特征的提取的情况下，缩减音频特征的尺寸。

其中，节拍数量为音频信号在单位时间内所包含的节拍点的数量总和。例如，假设电子设备对音频信号进行节拍点检测，确定该音频信号在1min的时间段内包括100个节拍点，那么电子设备可以确定该音频信号的节拍数量为100。

其中，第一预设阈值可以大于或者等于第二预设阈值，第一预设阈值和第二预设阈值可以为预先设定的数量值。例如，歌曲的BPM在[40，240]这一区间内。如果电子设备将相邻节拍点之间的信号确定为一个音频段，那么每分钟存在40～240个音频段，假设歌曲的时长为4min，那么该歌曲所包含的音频段数量在[160，960]这一区间内。由于本申请实施例对BPM的半倍频不敏感，可以将BPM限制在[60，120]这一区间内，因此，电子设备可以将第一预设阈值设置为120，将第二预设阈值设置为60。

举例来说，假设第一预设阈值为120，第二预设阈值为60，电子设备对音频信号进行节拍点检测，得到该音频信号的节拍数量为200，则电子设备可以确定节拍数量大于第一预设阈值，进而电子设备可以将相邻音频段合并为一个音频段。例如，音频信号的节拍数量为200，则电子设备将相邻节拍点之间的信号确定为一个音频段，该音频信号包含的音频段的数量总和为199，电子设备将相邻音频段合并为一个音频段，则合并后得到的音频段的数量总和为100。以图3所示的音频信号的示意图为例，假设电子设备将相邻节拍点之间的信号确定为一个音频段，得到的音频段在时间轴上分别为第一音频段、第二音频段、第三音频段、第四音频段以及第五音频段，然后电子设备可以将相邻音频段合并为一个音频段，即将第一音频段和第二音频段合并为一个音频段(例如第六音频段)，将第三音频段和第四音频段合并为一个音频段(例如第七音频段)，也就是说，该音频信号包括三个音频段，分别为第六音频段、第七音频段以及第五音频段。

举例来说，假设第一预设阈值为120，第二预设阈值为60，电子设备对音频信号进行节拍点检测，得到该音频信号的节拍数量为50，则电子设备可以确定节拍数量小于第二预设阈值，进而电子设备可以将各个音频段拆分为两个音频段。例如，音频信号的节拍数量为50，则电子设备将相邻节拍点之间的信号确定为一个音频段，该音频信号包含的音频段的数量总和为49，电子设备将各个音频段拆分为两个音频段，则拆分后得到的音频段的数量总和为98。以图4所示的音频信号的示意图为例，假设电子设备将相邻节拍点之间的信号确定为一个音频段，得到的音频段在时间轴上分别为第一音频段、第二音频段以及第三音频段，然后电子设备可以将各个音频段拆分为两个音频段，即将第一音频段拆分为第八音频段和第九音频段，如果第一音频段为音频信号中[1s，60s)这一时间区间的信号，那么第八音频段可以为音频信号中[1s，30s)这一时间区间的信号，第九音频段可以为音频信号中[31s，60s)这一时间区间的信号。同理，电子设备还可以将第二音频段拆分为第十音频段和第十一音频段，将第三音频段拆分为第十二音频段和第十三音频段，也就是说，该音频信号包括六个音频段，分别为第八音频段至第十三音频段。

在该实施例中，电子设备可以假设音频信号的BPM是全局唯一的，基于此，节拍点在音频信号中的分布是等间隔的。由于音乐小节是音乐重复的基本单元，而节拍是构成音乐小节的要素，因此基于节拍点得到音频段，可最大限度保留音频信号的重复模式特征。

S103，使用预设音频特征提取算法对各个音频段进行音频特征提取，得到各个音频段的音频向量。

电子设备可以将各个音频段作为预设自编码器的输入，得到输出结果，输出结果包括各个音频段的音频向量。

其中，自编码器(Auto Encoder)是一种利用反向传播算法使得输出序列等于输入序列的神经网络，即先将输入序列压缩成潜在空间表征，然后通过这种表征来重构输出序列，输出序列是对输入序列的更加有效的表示。

在一种实现方式中，电子设备可以通过预设自编码器使用序列到序列(sequence-to-sequence，seq2seq)模型对各个音频段进行处理，得到输出结果，各个音频向量的向量长度相同。

其中，seq2seq模型指的是将来自一个领域的序列转换成另一个领域的序列的模型。

例如，输入序列为语音信号序列，使用seq2seq模型对输入序列进行处理，得到的输出序列为文本序列。

示例性的，电子设备可以将某一音频段作为预设自编码器的输入序列，预设自编码器可以使用seq2seq模型对输入序列进行处理，得到输出序列，该输出序列为文本序列，电子设备可以将该输出序列确定为该音频段的音频向量。

在一种实现方式中，电子设备可以通过预设自编码器使用LSTM模型对各个音频段进行处理，得到输出结果。

S104，将各个音频向量进行组合，得到音频信号的音频特征。

电子设备可以将各个音频段的音频向量按照各个音频段的时间顺序进行组合，得到音频信号的音频特征。例如，假设音频信号获取到的音频段在时间轴上分别为第一音频段、第二音频段以及第三音频段，第一音频段的音频向量为第一音频向量，第二音频段的音频向量为第二音频向量，第三音频段的音频向量为第三音频向量，那么电子设备可以将第一音频向量、第二音频向量和第三音频向量进行组合，得到音频信号的音频特征，其中音频特征所包含的音频向量在时间轴上分别为第一音频向量、第二音频向量以及第三音频向量。

在图1所示的实施例中，通过对音频信号进行节拍点检测，得到各个节拍点在音频信号中的位置，将音频信号中相邻节拍点之间的信号确定为音频段，使用预设音频特征提取算法对各个音频段进行音频特征提取，得到各个音频段的音频向量，将各个音频向量进行组合，得到音频信号的音频特征，可在确保音频信号的结构完整性的情况下，有效缩短音频特征长度

请参见图5，图5是本发明实施例提供的一种音频特征提取装置的结构示意图，该音频特征提取装置用于执行图1对应的方法实施例中电子设备所执行的步骤，该音频特征提取装置可包括：

检测模块501，用于对音频信号进行节拍点检测，得到各个节拍点在所述音频信号中的位置；

确定模块502，用于将所述音频信号中相邻节拍点之间的信号确定为音频段；

提取模块503，用于使用预设音频特征提取算法对各个所述音频段进行音频特征提取，得到各个所述音频段的音频向量；

组合模块504，用于将各个所述音频向量进行组合，得到所述音频信号的音频特征。

在一种实现方式中，音频特征提取装置还可以包括：

获取模块505，用于确定模块502将所述音频信号中相邻节拍点之间的信号确定为音频段之后，获取所述音频信号的节拍数量，所述节拍数量为所述音频信号所包含的节拍点的数量总和；

合并模块506，用于当所述节拍数量大于第一预设阈值时，将相邻音频段合并为一个音频段。

在一种实现方式中，音频特征提取装置还可以包括：

拆分包括507，用于当所述节拍数量小于第二预设阈值时，将各个所述音频段拆分为两个音频段，所述两个音频段中每个音频段的时长相同。

在一种实现方式中，提取模块503使用预设音频特征提取算法对各个所述音频段进行音频特征提取，得到各个所述音频段的音频向量，包括：

在一种实现方式中，提取模块503将各个所述音频段作为预设自编码器的输入，得到输出结果，包括：

在一种实现方式中，检测模块501对音频信号进行节拍点检测，得到各个节拍点在所述音频信号中的位置，包括：

在一种实现方式中，组合模块504将各个所述音频向量进行组合，得到所述音频信号的音频特征，包括：

需要说明的是，图5对应的实施例中未提及的内容以及各个模块执行步骤的具体实现方式可参见图1所示实施例以及前述内容，这里不再赘述。

在一种实现方式中，图5中的各个模块所实现的相关功能可以结合处理器来实现。参见图6，图6是本发明实施例提供的一种电子设备的结构示意图，该电子设备包括处理器601和存储器602，所述处理器601、所述存储器602通过一条或多条通信总线连接。

处理器601被配置为支持音频特征提取装置执行图1所述方法中电子设备相应的功能。该处理器601可以是中央处理器(central processing unit，CPU)，网络处理器(network processor，NP)，硬件芯片或者其任意组合。

存储器602用于存储程序代码和音频信号等。存储器602可以包括易失性存储器(volatile memory)，例如随机存取存储器(random access memory，RAM)；存储器602也可以包括非易失性存储器(non-volatile memory)，例如只读存储器(read-only memory，ROM)，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-statedrive，SSD)；存储器602还可以包括上述种类的存储器的组合。

处理器601可以调用存储器602中存储的程序代码以执行以下操作：

将所述音频信号中相邻节拍点之间的信号确定为音频段；

在一种实现方式中，所述处理器601将所述音频信号中相邻节拍点之间的信号确定为音频段之后，还可以执行以下操作：

在一种实现方式中，所述处理器601获取所述音频信号的节拍数量之后，还可以执行以下操作：

在一种实现方式中，所述处理器601使用预设音频特征提取算法对各个所述音频段进行音频特征提取，得到各个所述音频段的音频向量，具体可以为：

在一种实现方式中，所述处理器601将各个所述音频段作为预设自编码器的输入，得到输出结果，具体可以为：

在一种实现方式中，所述处理器601所述对音频信号进行节拍点检测，得到各个节拍点在所述音频信号中的位置，具体可以为：

在一种实现方式中，所述处理器601将各个所述音频向量进行组合，得到所述音频信号的音频特征，具体可以为：

进一步地，处理器601还可以执行图1所示实施例中电子设备对应的操作，具体可参见方法实施例中的描述，在此不再赘述。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种音频特征提取方法，其特征在于，包括：

将所述音频信号中相邻节拍点之间的信号确定为音频段；

获取所述音频信号的节拍数量，所述节拍数量为所述音频信号在单位时间内所包含的节拍点的数量总和；

当所述节拍数量大于第一预设阈值时，将相邻音频段合并为一个音频段；

2.根据权利要求1所述的方法，其特征在于，所述获取所述音频信号的节拍数量之后，还包括：

3.根据权利要求1或2所述的方法，其特征在于，所述使用预设音频特征提取算法对各个所述音频段进行音频特征提取，得到各个所述音频段的音频向量，包括：

4.根据权利要求3所述的方法，其特征在于，所述将各个所述音频段作为预设自编码器的输入，得到输出结果，包括：

5.根据权利要求1所述的方法，其特征在于，所述对音频信号进行节拍点检测，得到各个节拍点在所述音频信号中的位置，包括：

6.根据权利要求1所述的方法，其特征在于，所述将各个所述音频向量进行组合，得到所述音频信号的音频特征，包括：

7.一种音频特征提取装置，其特征在于，所述音频特征提取装置包括用于执行如权利要求1-6任一项所述的方法的模块。

8.一种电子设备，所述电子设备包括处理器和存储器，所述处理器与所述存储器融合，其特征在于，

所述存储器，用于存储指令；

所述处理器，用于执行所述存储器中的指令，使得所述电子设备执行如权利要求1-6任一项所述的方法。

9.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序或指令，当所述程序或指令被处理器执行时，使所述处理器执行如权利要求1-6任一项所述的方法。