CN103824555A

CN103824555A - 音频段提取方法及提取装置

Info

Publication number: CN103824555A
Application number: CN201210468058.XA
Authority: CN
Inventors: 易立夫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2012-11-19
Filing date: 2012-11-19
Publication date: 2014-05-28
Anticipated expiration: 2032-11-19
Also published as: CN103824555B

Abstract

本发明涉及音频段提取方法及提取装置，其中提取方法包括：获取被检测歌曲的音频信号；按预设的时间间隔对音频信号进行分帧处理，以将音频信号划分为若干音频信号段；从每个音频信号段中提取基音和起始点特征，分别形成基音和起始点的特征序列；以及根据特征序列对每个音频信号段进行检测，以得到所需提取音频段的起始点和结束点的位置信息。本发明能够准确、快速地提取到所需音频段位置信息，能够满足实时检测的应用需求。

Description

音频段提取方法及提取装置

技术领域

本发明涉及音乐处理技术领域，尤其涉及音频段提取方法及提取装置。

背景技术

一般流行歌曲的结构是以主歌（Verse）（A）、副歌（Chorus）（B）、过渡句（插句）（C）、流行句（记忆点）（D）、桥段（Instrumental and Ending）（序唱，过门，间奏）（E）等组成。歌曲的音频段提取是音乐处理领域中的一种重要的音乐处理方法。目前对副歌中的音频段提取尤为常见。副歌具有对比性强烈、歌词句式重复、发展与概括性三大特点。通常，人们对歌曲记忆深刻的高潮部分，一般会出现在歌曲的副歌段内。自动提取歌曲副歌高潮段，有助于用户快速定位歌词核心（记忆点）部分，制作手机铃声以及快速聆听歌曲精华部分，从而可提升用户对音乐服务的满意度。

现有的副歌高潮段的提取方法大都通过人工标注歌曲副歌高潮段，即当用户请求获取音乐库内的某首歌曲的副歌高潮段信息时，则将此请求提交给后台服务器，服务器将人工事先离线计算好的副歌高潮段信息返回给客户端。由于音乐库内歌曲数量超过百万，人工标注歌曲副歌高潮段费时费力，且不能根据用户需求随时变更。另外，现有技术主要考虑提取副歌段，而对副歌中的高潮段（记忆点）缺乏关注，实际制作用户彩铃和快进“浏览”需要较短的歌曲片段（比如30-40秒）（即副歌中的高潮段）。因为副歌段有可能持续1分钟以上，这对手机彩铃（一般要求彩铃时间<=45秒）等短时间歌曲片段的用户需求来说，显得有些不尽合理。

发明内容

因此，本发明提供音频段提取方法及提取装置，以克服现有歌曲处理技术存在的问题。

具体地，本发明实施例提出的一种音频段提取方法，包括步骤：获取被检测歌曲的音频信号；按预设的时间间隔对音频信号进行分帧处理，以将音频信号划分为若干音频信号段；从每个音频信号段中提取基音和起始点特征，分别形成基音和起始点的特征序列；以及根据特征序列对每个音频信号段进行检测，以得到所需提取音频段的起始点和结束点的位置信息。

另外，本发明实施例提出的一种音频段提取装置，包括获取模块、划分模块、特征提取模块以及检测模块。获取模块，用于获取被检测歌曲的音频信号；划分模块，用于按预设的时间间隔对音频信号进行分帧处理，以将音频信号划分为若干音频信号段；特征提取模块，用于从每个音频信号段中提取基音和起始点特征，分别形成基音和起始点的特征序列；检测模块，用于根据特征序列对每个音频信号段进行检测，以得到所需提取音频段的起始点和结束点的位置信息。

由上述实施例可知，本发明通过从音频信号中提取基音和起始点特征，分别形成特征序列，并根据特征序列对音频信号进行所需提取音频段的检测，以得到所需提取音频段的起始点和结束点的位置信息。从而能够准确、快速地提取到所需提取音频段位置信息，能够满足实时检测应用的需求，而且可以灵活的控制输出检测结果的长短，还有助于提升用户对音乐服务的满意度，例如制作手机铃声、快速聆听歌曲精华部分等。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图，详细说明如下。

附图说明

图1是本发明实施例提出的音频段提取方法的步骤流程图；

图2是本发明实施例提出的音频信号的频谱图及音频信号的频谱图划分的示意图；

图3是本发明实施例提出的音频信号的波形图及基音走势的示意图；

图4是本发明实施例提出的音频信号的谱能量特征分布图；

图5是本发明实施例提出的音频段提取装置的主要架构框图。

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的音频段提取方法及提取装置其具体实施方式、结构、特征及功效，详细说明如后。

有关本发明的前述及其他技术内容、特点及功效，在以下配合参考图式的较佳实施例详细说明中将可清楚的呈现。通过具体实施方式的说明，当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解，然而所附图式仅是提供参考与说明之用，并非用来对本发明加以限制。

图1是本发明实施例提供的音频段提取方法的步骤流程图。请参阅图1，本发明实施例的音频段提取方法可包括以下步骤S101-S107：

步骤S101：获取被检测歌曲的音频信号。

本步骤中，可以获取音频信号的频谱图如图2所示，也可以是音频信号的波形（位移图）如图3所示的位移波形301。此音频信号可以是解码为wav格式的音频信号。主要是因为歌曲的音频信号通常为压缩的信号，因此需要解码（即解压缩）为wav格式的音频信号，才能再进行一般的信号处理。

步骤S103：按预设的时间间隔对歌曲的音频信号进行分帧处理，以将音频信号划分为若干音频信号段。

本步骤中，可以以ts秒/N(N为正整数）的时间间隔将音频信号分为N段，其中，ts可以为被检测歌曲的时间长度，将音频信号划分为若干段的频谱图如图2所示。此处的时间间隔可以为20ms或其它时间间隔。

步骤S103后具体还可包括步骤：

对每个音频信号段进行FFT（傅立叶变换）变换以得到每个音频信号段的频谱图，音频信号的频谱图如图2所示。

本步骤中，FFT变换可以采用离散傅立叶变换。

步骤S105:从每个音频信号段中提取基音和起始点特征，分别形成基音和起始点的特征序列。

步骤S105中具体还可包括步骤：

从每个音频信号段中提取能量值特征，形成能量值的特征序列。

其中，以副歌高潮段的提取为例进行说明，副歌在节奏上、情感上与主歌形成鲜明对比，曲调有较大的对比变化。音乐的基音是每个乐音中频率最低的纯音，其强度最大，副歌高潮部分的基音会比较高，以表达更为强烈的感情。基音频率是基音周期的倒数，而基音周期(Pitch)是指发浊音时声带振动所引起的周期运动的时间间隔。由于基音周期只具有准周期性，所有只能采用短时平均方法估计该周期，这个过程也称为基音检测(PitchDe-tection)。目前成熟的基音检测的方法主要有短时自相关函数法、平均幅度差函数法、倒谱解卷积法等。采用目前现有的上述基音检测方法可以获得音频信号的基音频率值，由此根据音频信号中每个乐音的基音频率及音频信号得到图3所示的基音走势曲线302。图3的基音走势曲线302上的点即为每个乐音的基音的音频信号序列。由基音频率值形成基音的特征序列。

此外，起始点的特征序列的获取方法如下：可以采用现有的如下的函数：能量、差分相位、高频分量（HFC，High-frequency content）、改进的库尔贝克和莱伯勒散度（Modified Kullback-Leibler divergence）、MFCC（美尔倒谱系数）、LSP（线谱对）、WPD（加权相位差分）等函数对图2的频谱图上的谱能量进行累加得到图4所示的音频信号的谱能量特征分布图。而音频信号是一种短时信号，也就是在小时间单位（比如20毫秒）内音频信号在频域上变化不大，随着时间的变化，音频信号的变化会逐渐加大。例如若歌手演唱歌词的改变或歌曲配乐的变化，音频信号都会在时间轴上呈现不均匀的变化。由于音频信号本身在时间轴上存在着这种不均衡性，副歌高潮段起始点的选择最好是选取音频信号能量最集中变化最剧烈的位置。由此可以根据能量阈值及预设时间范围（某时间的能量大于其前后时间的能量即能量变化最剧烈、时间持续比较短）来获取起始点的特征序列。选取如图4中的波峰位置，即图4中标记的点即持续时间比较短的波峰位置作为起始点(onset)的特征序列。

能量的特征序列即对应于图4的谱能量特征分布曲线上的点（即能量值构成能量值的特征序列）。

步骤S107:根据特征序列对每个音频信号段进行检测，以得到所需提取音频段的起始点和结束点的位置信息。

本步骤中，仍以副歌高潮段的提取为例进行说明，可以根据特征序列采用机器学习算法对每个音频信号段进行检测以获得副歌高潮段，机器学习算法包括采用一些副歌高潮段的各种信息的检测公式，例如概率公式，而检测出副歌高潮段在每个音频信号段的概率，而选择概率高的音频信号段作为副歌高潮段所在的音频信号段。副歌高潮段的各种信息包括副歌高潮段能量比较高、基音的频率比较高等信息。

此外，还可以依次将基音、能量和起始点的特征序列与阈值、预设时间及每个音频信号段进行比较而得到副歌高潮段的起始点和结束点的位置信息。具体地，将基音的特征序列与基音阈值进行比较而得到第一候选高潮段，即若基音特征序列中的某一时间段基音的强度（基音频率）大于基音阈值，则将此基音段作为第一候选高潮段，即此基音段所对应的时间段作为高潮段的第一候选时间段。将能量值的特征序列与能量阈值进行比较而得到第二候选高潮段，即若能量的特征序列中某一时间段能量大于能量阈值，则将此能量段作为第二候选高潮段，即此能量段所对应的时间段作为高潮段的第二候选时间段。将起始点的特征序列与起始点阈值进行比较而得到高潮段候选起始点，即若起始点特征序列中某一起始点大于起始点阈值，则将此起始点所对应的时间作为高潮段的候选起始点。再将所确定的各候选高潮段的时间段（即高潮段的持续时间）与预设时间范围及每个音频信号段进行比较，而确定高潮段的时间段（即开始时间及结束时间）及高潮段所在的音频信号段，即若预设时间范围为20-50秒（主要由所提取的高潮段的时间长度而定），如果候选高潮段的时间段（即高潮段的持续时间）在预设时间范围内，则确定候选高潮段为所需提取的高潮段，此候选高潮段的开始时间及结束时间即为所需提取的高潮段的起始点和结束点，再将候选高潮段的时间段与每个音频信号段进行比较，若候选高潮段的时间段在某个音频信号段内，则判断为该个音频信号段为所需提取的高潮段所在的音频信号段。

基于上述副歌高潮段检测能保证较高的准确率，且计算量相对较小，能满足实时检测应用的需求。

在本发明的实施例中，本发明通过从音频信号中提取基音和起始点或能量特征，分别形成基音和起始点或能量的特征序列，再根据特征序列对每个音频信号段进行检测，以得到所需提取音频段的起始点和结束点的位置信息。从而能够准确、快速地提取到所需提取音频段位置信息，能够满足实时检测的应用需求，而且可以灵活的控制输出检测结果的长短，还能够提升用户对音乐服务的满意度，例如制作手机铃声、快速聆听歌曲精华部分等。

图5是本发明实施例提出的音频段提取装置的主要架构框图。请参阅图5，音频段提取装置包括：获取模块501、划分模块503、特征提取模块505以及检测模块507。

获取模块501，用于获取被检测歌曲的音频信号。

划分模块503，用于按预设的时间间隔对音频信号进行分帧处理，以将音频信号划分为若干音频信号段。

特征提取模块505，用于从每个音频信号段中提取基音和起始点特征，分别形成基音和起始点的特征序列。

此外，特征提取模块505，还用于采用现有的自相关等成熟算法获得每个音频信号段的各基音频率值，由基音频率值形成基音的特征序列，从每个音频信号段中提取能量值，形成能量值的特征序列；并在每个音频信号段中选取音频信号能量集中且变化剧烈的位置作为各起始点，由该起始点形成起始点的特征序列。

其中，基音频率是基音周期的倒数，而基音周期是指发浊音时声带振动所引起的周期运动的时间间隔。由于基音周期只具有准周期性，所有只能采用短时平均方法估计该周期，这个过程也称为基音检测。目前成熟的基音检测的方法主要有短时自相关函数法、平均幅度差函数法、倒谱解卷积法等。采用目前现有的上述基音检测的成熟方法可以获得音频信号的基音频率值。

检测模块507，用于根据特征序列对每个音频信号段进行检测，以得到所需提取音频段的起始点和结束点的位置信息。

此外，检测模块507，还用于依次将特征序列与阈值、预设时间及每个音频信号段进行比较而得到所需提取音频段的起始点和结束点的位置信息。

具体地，检测模块507，还用于将基音的特征序列与基音阈值进行比较而得到第一候选音频段，将能量值的特征序列与能量阈值进行比较而得到第二候选音频段，将起始点的特征序列与起始点阈值进行比较而得到音频段候选起始点；将各候选音频段的持续时间与预设时间范围进行比较，若候选音频段的持续时间在预设时间范围内，则确定候选音频段为所需提取的音频段，候选音频段的开始时间及结束时间为所需提取的音频段的起始点和结束点；并将候选音频段的持续时间与每个音频信号段进行比较，若候选音频段的持续时间在某个音频信号段内，则判断为该个音频信号段为所需提取音频段所在的音频信号段。

此外，音频段提取装置还可以包括：变换模块509。

变换模块511，用于对每段音频信号进行FFT（傅立叶）变换以得到每个音频信号段的频谱图。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random Access Memory，RAM）等。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种音频段提取方法，其特征是：包括步骤：

获取被检测歌曲的音频信号；

按预设的时间间隔对该音频信号进行分帧处理，以将该音频信号划分为若干音频信号段；

从每个音频信号段中提取基音和起始点特征，分别形成基音和起始点的特征序列；以及

根据该特征序列对每个音频信号段进行检测，以得到该所需提取音频段的起始点和结束点的位置信息。

2.根据权利要求1所述的音频段提取方法，其特征是：在执行按预设的时间间隔对音频信号进行分帧处理的步骤后，还包括步骤：

对每个音频信号段进行傅立叶变换以得到每个音频信号段的频谱图。

3.根据权利要求1所述的音频段提取方法，其特征是：在执行从每个音频信号段中提取基音和起始点特征，分别形成基音和起始点的特征序列的步骤中，还包括步骤：

采用短时自相关函数法、平均幅度差函数法或倒谱解卷积法获得每个音频信号段的各基音频率值，由该基音频率值形成该基音的特征序列；

从每个音频信号段中提取能量值，形成该能量值的特征序列；以及

在每个音频信号段中选取音频信号能量集中且变化剧烈的位置作为各起始点，由该起始点形成该起始点的特征序列。

4.根据权利要求3所述的音频段提取方法，其特征是：在执行根据该特征序列对每个音频信号段进行检测的步骤中，还包括步骤：

依次将该特征序列与阈值、预设时间及每个音频信号段进行比较而得到该所需提取音频段的起始点和结束点的位置信息。

5.根据权利要求4所述的音频段提取方法，其特征是：还包括步骤：

将该基音的特征序列与基音阈值进行比较而得到第一候选音频段，将该能量值的特征序列与能量阈值进行比较而得到第二候选音频段，将该起始点的特征序列与起始点阈值进行比较而得到音频段候选起始点；

将各候选音频段的持续时间与预设时间范围进行比较，若该候选音频段的持续时间在该预设时间范围内，则确定该候选音频段为所需提取的音频段，该候选音频段的开始时间及结束时间为所需提取的音频段的起始点和结束点；以及

将该候选音频段的持续时间与每个音频信号段进行比较，若该候选音频段的持续时间在某个音频信号段内，则判断为该个音频信号段为所需提取音频段所在的音频信号段。

6.一种音频段提取装置，其特征在于，其包括：

获取模块，用于获取被检测歌曲的音频信号；

划分模块，用于按预设的时间间隔对该音频信号进行分帧处理，以将该音频信号划分为若干音频信号段；

特征提取模块，用于从每个音频信号段中提取基音和起始点特征，分别形成基音和起始点的特征序列；以及

检测模块，用于根据该特征序列对每个音频信号段进行检测，以得到该所需提取音频段的起始点和结束点的位置信息。

7.根据权利要求6所述的音频段提取装置，其特征在于，其进一步包括：

变换模块，用于对每个音频信号段进行傅立叶变换以得到每个音频信号段的频谱图。

8.根据权利要求6所述的音频段提取装置，其特征在于，该特征提取模块，还用于采用短时自相关函数法、平均幅度差函数法或倒谱解卷积法获得每个音频信号段的各基音频率值，由该基音频率值形成该基音的特征序列；从每个音频信号段中提取能量值，形成该能量值的特征序列；并在每个音频信号段中选取音频信号能量集中且变化剧烈的位置作为各起始点，由该起始点形成该起始点的特征序列。

9.根据权利要求6所述的音频段提取装置，其特征在于，该检测模块，还用于依次将该特征序列与阈值、预设时间及每个音频信号段进行比较而得到该所需提取音频段的起始点和结束点的位置信息。

10.根据权利要求6所述的音频段提取装置，其特征在于，该检测模块，还用于将该基音的特征序列与基音阈值进行比较而得到第一候选音频段，将该能量值的特征序列与能量阈值进行比较而得到第二候选音频段，将该起始点的特征序列与起始点阈值进行比较而得到音频段候选起始点；将各候选音频段的持续时间与预设时间范围进行比较，若该候选音频段的持续时间在该预设时间范围内，则确定该候选音频段为所需提取的音频段，该候选音频段的开始时间及结束时间为所需提取的音频段的起始点和结束点；并将该候选音频段的持续时间与每个音频信号段进行比较，若该候选音频段的持续时间在某个音频信号段内，则判断为该个音频信号段为所需提取音频段所在的音频信号段。