CN109545191B

CN109545191B - 一种歌曲中人声起始位置的实时检测方法

Info

Publication number: CN109545191B
Application number: CN201811358618.XA
Authority: CN
Inventors: 甘涛; 甘云强; 何艳敏
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-11-15
Filing date: 2018-11-15
Publication date: 2022-11-25
Anticipated expiration: 2038-11-15
Also published as: CN109545191A

Abstract

本发明属于数字音频处理技术领域，涉及人声检测问题，具体为一种歌曲中人声起始位置估计方法，该方法采用高重叠的长窗口对音频进行分帧，并提取频率间(频域)和帧间(时域)两个维度的动态特征，有效地捕获了初始发声阶段的音频特性，通过对歌声起点片段的学习，将歌曲划分为乐器声和人声(或乐器‑人声混合声)两类，较准确地估计出人声起始位置，且具有较好的人声/乐器声判定容错性；同时，该方法算法简单、处理快速，能够广泛应用于广播电台的节目播出、自动化数字媒体管理等。

Description

一种歌曲中人声起始位置的实时检测方法

技术领域

本发明属于数字音频处理技术领域，涉及人声检测问题，具体为一种歌曲中人声起始位置估计方法，该方法可应用于广播音频的实时人声位置打点标记。

背景技术

一首歌曲通常由纯伴奏和演唱两部分构成，其中纯伴奏部分是纯粹由伴奏乐器产生，不含人声的部分，而演唱部分是人声与伴奏音乐的叠加。在当前数字媒体资料管理中，对一首歌曲，往往需要将其中的人声起始位置(起点)进行打点标记。人声起点信息有诸多用途，比如在广播电台的直播节目中，人声起点位置可帮助主持人控制说话时长、设置相邻歌曲交叉淡入淡出等；另外，人声起点位置有利于现代媒体管理中对歌曲的各种自动化处理，如快速定位歌曲内容、歌词对齐、歌词识别和歌手识别等。

研究表明，在歌曲中检测或区分出人声是一项富有难度的任务；歌曲中的器乐声通常都是宽频带、具有谐波成分并与人声组成一个协调一致的整体，这使得人声位置估计变得十分困难；同时，弦乐器、木管乐器以及铜管乐器等发出的器乐声表现出与人声相似的特征，容易被误判为人声，这对准确检测人声位置提出了另一个挑战。

通常人声检测过程包括提取音频特征和将人声/乐器声分类两个环节。在特征提取方面，常用的特征有短时能量、过零率(ZCR)、梅尔频率倒谱系数(MFCC)、线性预测倒谱系数(LPCC)、线性预测编码(LPC)等等，而且多特征组合的使用也比较常见。在分类方面，主要使用的是基于统计模型的分类器，如隐马科夫模型(HMM)、高斯混合模型(GMM)、支持向量机(SVM)、人工神经网络(ANN)分类器等。由前分析知，由于歌曲中乐器声对人声的影响，很多常见的人声特征变得模糊甚至失效，进而使得多特征组合也收效甚微，不足以弥补引入多个特征带来的运算代价；在分类器方面，各自分类器的效果差别不十分明显；另外，效果相对较好的ANN方法，还存在训练时间长，需要的样本数多等缺点。总之，在缺乏针对乐器-人声混合声的有效特征表达的情况下，目前人声检测的准确率低于90％，进而使得估计人声起点的准确率难以达到实用要求。

发明内容

本发明的目的在于针对背景技术存在的问题，提供一种歌曲中人声起始位置的实时检测方法，本发明采用新的音频处理和人声位置的估计方法。为实现该目的，本发明采用的技术方案为：

一种歌曲中人声起始位置的实时检测方法，包括训练和识别两个阶段，包括以下步骤：

训练阶段：

S1.读取训练音频帧：初始化训练数据矩阵A为空，对每一个参与训练的音频文件，作如下处理：

S11.音频数据分帧：将音频转化为采样率为22050Hz的单声道音频，将转换后的数据按固定长度L(2048≤L≤8192，L的单位为采样点)划分为各音频帧，相邻帧间有重叠，重叠长度为3/4帧～9/10帧；将每一帧数据排列成一列矢量，并将其中各元素除以矢量中元素绝对值的最大值进行归一化，将归一化后的列矢量a按列追加到数据矩阵A中，即A＝[A,a]；得到更新的训练数据矩阵

其中，a_j表示第j帧数据，j＝1,2,...,N_train，N_train为处理完所有文件后的音频总帧数；

S12.对训练数据矩阵A中的每一帧数据，通过人工判定出该帧是人声或乐器声，并将判定结果作为该帧的类别标签记录到标签矢量中，得到标签矢量

其中，z_j表示第j帧数据的类别，z_j＝1表示其类别为人声，z_j＝0表示其类别为乐器声；

S2.对训练数据矩阵A中的每一帧a_j(j＝1,2,...,N_train)进行处理，具体过程如下：

S21.计算功率谱：对音频帧a_j的数据进行加窗处理，并进行短时傅里叶变换，得到音频帧的频谱；对频谱幅度值求平方得到功率谱b_j＝[b_1,j,b_2,j,...,b_k,j,...,b_L/2+1,j]^T，其中，b_k,j表示第j帧数据的第k个频率点的功率，k＝1,2,...,L/2+1；

S22.梅尔滤波：

梅尔滤波器组设计：按照梅尔频率，在0～22050Hz的频率段设计30个三角带通滤波器，每一个三角形滤波器的中心频率在梅尔频率轴上等间距分布；设第i(i＝1,2,...,30)个三角形滤波器的下限频率编号为o(i)、中心频率编号为c(i)、上限频率编号为h(i)，相邻三角形滤波器的下限、中心、上限频率编号满足如下关系：

c(i)＝h(i-1)＝o(i+1) (1)

梅尔滤波器组滤波：用设计出的滤波器组对音频帧a_j进行滤波处理，得到u_j＝[u_1,j,u_2,j,u_3,j,...,u_i,j,...,u_30,j]^T，其中，u_i,j表示第i个三角形滤波器对第j帧数据滤波输出的自然对数，其计算公式如下

其中，

S3.生成音频特征：

S31.横向差分：计算时间方向的一阶差分：

且令

得到

其中，

表示第j帧数据的第i个横向差分系数；

S32.纵向差分：计算频率方向的一阶差分：

得到

其中，

表示第j帧数据的第i个纵向差分系数；

S33.组合特征：组合步骤S22，S31和S32得到数据，生成特征数据矩阵

其中，

S4.生成决策分类器：

对特征数据矩阵F和标签矢量z，使用随机森林方法，生成n棵决策树，记为t₁,t₂,t₃,...,t_n，其中，n为预设的决策树数目，最终形成决策分类器T＝[t₁,t₂,t₃,...,t_n]；

识别阶段：

S1.读取检测音频帧：按照训练阶段步骤S11，读取待检测音频文件，并对其进行数据分帧，得到检测数据矩阵

其中，a'_j'表示第j'帧数据，j'＝1,2,3,...,N_test，N_test为待检测音频文件的总音频帧数；

S2.生成音频特征：按训练阶段步骤S2～S3对待检测音频文件生成音频特征，得到检测特征矩阵

S3.判定帧类别：

对检测特征矩阵F'中的每一列(或帧)，使用决策分类器T，按照决策树判定方法进行人声/乐器声的类别判定，得到各检测帧的预测类别矢量

其中，p_j'＝1表示第j'帧的预测类别为人声，p_j'＝0表示第j'帧的预测类别为乐器声；

S4.估计人声起始位置：

S41.设置初始帧位置j'＝2，初始人声起点位置Pos＝1；

S42.判断当前第j'帧是否满足条件：p_j'＝1且p_j'-1＝0，若满足，则执行步骤S43，否则，执行步骤S48；

S43.初始化：检测窗起点start＝j'，设置检测窗的长度为len，检测窗起点的最大值为start_max；

S44.计算当前窗口[start,start+len-1]中人声帧的帧数占总帧数的比例R；

S45.若R小于设定的不可信人声占比阈值T_R0(0.4≤T_R0≤0.6)，则转到步骤S48；否则，执行步骤S46；

S46.若R大于设定的可信人声占比阈值T_R1(0.7≤T_R1≤0.8)，则令Pos＝j'，并转到步骤S49，否则，执行步骤S47；

S47.更新start＝start+len，若start≤start_max，则转到步骤S44继续下一次迭代；否则，执行步骤S48；

S48.更新j'＝j'+1，并进行判断，若j'≤N_test-len，则转到步骤S42；否则，结束检测，输出未检测到人声；

S49.估计人声起点位置：time＝Pos×Δt，其中，Δt为一个音频帧的时长，其单位为秒；结束检测，输出人声起始点估计位置time。

本发明的有益效果在于：

本发明提供一种歌曲中人声起始位置的检测方法，该方法采用高重叠的长窗口对音频进行分帧，并提取频率间(频域)和帧间(时域)两个维度的动态特征，有效地捕获了初始发声阶段的音频特性，通过对歌声起点片段的学习，将歌曲划分为乐器声和人声(或乐器-人声混合声)两类，较准确地估计出人声起始位置，且具有较好的人声/乐器声判定容错性；同时，该方法算法简单、处理快速，能够广泛应用于广播电台的节目播出、自动化数字媒体管理等。

附图说明：

图1为本发明实施例中歌曲中人声起始位置的实时检测方法的流程示意图，其中包含了生成决策分类器、判定帧类别、估计人声起始位置等步骤。

图2为本发明实施例中对第15首歌曲的前1200帧，音频帧类别的人工标记(真值)和检测结果(估计值)的对比情况；其中，(a)为音频帧类别的真值，(b)为音频帧类别的估计值，两个子图横坐标均为帧编号，纵坐标均为类别，1表示人声，0表示乐器声。

图3为本发明实施例中对第6首歌曲的前1200帧，音频帧类别的人工标记(真值)和检测结果(估计值)的对比情况；其中，(a)为音频帧类别的真值，(b)为音频帧类别的估计值，两个子图横坐标均为帧编号，纵坐标均为类别，1表示人声，0表示乐器声。

具体实施方式

下面结合附图和实施例对本发明做进一步详细说明。

本实施例中提供一种歌曲中人声起始位置的检测方法，其流程示意图如图1所示；包括包括训练和识别两个阶段；本实施例中，仿真实验使用的歌曲共120首，其中前100首为训练音频，后20首歌曲为检测音频；对每个训练音频均进行如下预处理：1)将音频进行剪切，只保留其前面部分，保留的区间为音频开始到人声起始位置后10秒；2)标记人声起始位置时刻。

本实施例中歌曲中人声起始位置的检测方法，具体步骤如下：

·训练阶段：

S1.读取训练音频帧：设训练数据矩阵A的初值为空，对每一个参与训练的音频文件，作如下处理：

S11.音频数据分帧：将音频转化为采样率为22050Hz的单声道音频，将转换后的数据按固定长度L＝4096划分为各音频帧，相邻帧间有7/8帧长度的重叠；将每一帧数据排列成一列矢量，并将其中各元素除以矢量中元素绝对值的最大值进行归一化，将归一化后的列矢量a按列追加到训练数据矩阵A中，即A＝[A,a]；处理完所有文件后的音频总帧数N_train为137743，则训练数据矩阵A＝[a₁,a₂,a₃,...,a₁₃₇₇₄₃]，其中A的每一列a_j表示第j帧的数据；

S12.对训练数据矩阵A中的每一列(或帧)，人工判定出该帧是人声或乐器声，并将判定结果作为该帧的类别标签记录到标签矢量z＝[z₁,z₂,z₃,...,z₁₃₇₇₄₃]中，其中z_j表示第j帧的类别，z_j＝1表示其类别为人声，z_j＝0表示其类别为乐器声；

下面以处理歌曲“蔡琴_海上花”的第1000帧为例进行说明；

S2.读取A中的第1000帧数据a₁₀₀₀，有a₁₀₀₀＝[0.0102,0.0104,0.0107,...,-0.0080]^T，进行如下处理：

S21.计算功率谱：对音频帧a₁₀₀₀的数据进行加汉明窗处理，进行短时傅里叶变换，得到音频帧的频谱；对频谱幅度值求平方得到功率谱b₁₀₀₀＝[8.315807,125.261691,122.165653,...,0.000002]^T；

S22.梅尔滤波：

S221.梅尔滤波器组设计：按照梅尔频率，在0～22050Hz的频率段设计30个三角带通滤波器，每一个三角形滤波器的中心频率在梅尔频率轴上是等间距分布的。设第i个三角形滤波器的下限频率编号为o(i)、中心频率编号为c(i)和上限频率编号为h(i)，相邻三角形滤波器的下限、中心和上限频率编号满足如下关系：

c(i)＝h(i-1)＝o(i+1) (1)

以第1个三角带通滤波器为例，其中o(1)＝0Hz，c(1)＝66.6Hz，h(1)＝139.6Hz；

S222.梅尔滤波器组滤波：用设计出的滤波器组对音频帧a₁₀₀₀进行滤波处理，其计算公式如下

其中

得到梅尔滤波器组对a₁₀₀₀的滤波输出u₁₀₀₀＝[u_1,1000,u_2,1000,u_3,1000,...,u_30,1000]^T＝[-198.5685,70.9043,17.7027,...,-0.0130]^T；

S3.生成音频特征：

S31.横向差分：计算音频帧a₁₀₀₀时间方向的一阶差分

令

得到

S32.纵向差分：计算音频帧a₁₀₀₀频率方向的一阶差分

得到

S33.组合特征：组合步骤S22，S31和S32得到数据，生成音频帧a₁₀₀₀的特征数据矢量

S4.生成决策分类器：

对特征数据矩阵F和对应的标签矢量z，使用随机森林算法，生成128棵决策树，记为t₁,t₂,t₃,...,t₁₂₈，最终形成决策分类器T＝[t₁,t₂,t₃,...,t₁₂₈]；

·识别阶段：

下面以处理歌曲“本兮_爱之光”为例进行说明；

S1.读取检测音频帧：按照阶段步骤S11，读取待检测某音频文件前2分钟的数据，并对其进行数据分帧，分帧后的音频总帧数N_test为5168，则检测数据矩阵A'＝[a'₁,a'₂,a'₃,...,a'₅₁₆₈]，其中A'的每一列a'_j'(1≤j'≤5168)表示第j'帧的数据；

S2.生成音频特征：按训练阶段步骤S2～S3，进行读取音频帧、计算功率谱、梅尔滤波和生成音频特征等处理，最终得到检测特征矩阵F'＝[f'₁,f'₂,f'₃,...,f'₅₁₆₈]，其中f'₁＝[-210.1838,27.8589,17.6038,...,1.0495]^T；

S3.判定帧类别：

对检测特征矩阵F'中的每一列(或帧)，使用决策分类器T，按照决策树判定方法进行人声/乐器声的类别判定，得到各检测帧的预测类别矢量p＝[p₁,p₂,p₃,...,p₅₆,p₅₇,p₅₈,...,p₅₁₆₈]^T＝[0,0,0,...,1,1,0,...,0]^T，其中，p_j'＝1表示第j'帧的预测类别为人声，p_j'＝0表示第j'帧的预测类别为乐器声；第一个1出现在位置56处；

S4.估计人声起始位置：

S41.设置初始帧位置j'＝2，初始人声起点位置Pos＝1；

S42.判断当前第j'帧是否满足“p_j'＝1且p_j'-1＝0”，在j'＝56帧处，第一次满足条件，作如下迭代操作：

S43.初始化：设置检测窗的长度为len为1秒钟对应的整帧数43，初始检测窗起点start＝56,检测窗起点的最大值为start_max为start加上4秒钟对应的整帧数172，即start_max＝56+172＝228；

S44.计算当前窗口[56,56+43-1]中人声帧的帧数占总帧数的比例

S45.由于R小于不可信人声占比阈值T_R0＝0.5，则令j'＝56+1＝57，并转到步骤S42继续检测下一个帧位置；

S46.第一次到达该步骤时，j'＝670,此时计算出的R＝0.604,由于R小于设定的可信人声占比阈值T_R1＝0.75，不做处理，执行步骤S47；直到j'＝1362,此时计算出的R＝0.975,由于R＞T_R1，令Pos＝1362，并转到步骤S49；

S47.更新start＝start+43，当start≤start_max时转到步骤S44继续下一次迭代；

S48.更新j'＝j'+1，并进行判断，当j'≤N_test-len时转到步骤S42继续检测下一个帧位置，否则结束整个检测；

S49.估计人声起点位置：计算一个音频帧的时长Δt：Δt＝512/22050≈0.0232秒，则估计的人声起点位置time＝Pos×Δt＝1362×0.0232≈31.60秒。

下面分别从估计正确率和运行速度两方面来进行性能评估。

1.估计正确率

检测结果如表1所示。表中的“平均帧识别率”是识别阶段步骤S3输出的所有帧的预测结果的平均正确率，“标识人声起始位置”为人工标记的真实值，“估计的人声起始位置”为本方法最终输出结果，“估计误差”为估计值与真实值之差，估计误差为正代表估计点的位置滞后于真实点，为负代表估计点的位置超前于真实点；“结果评定”按如下规则确定：设置允许误差范围为±1秒，估计误差落在允许范围内则评定为正确，反之为错误；为此，对表中20首检测音频，有18首评定为正确，检测正确率为90％。

可以看到，本发明方法具有较好的分类容错性，即在对音频帧人声识别率不高的情况下，仍能相对准确地检测出人声起始位置，这显示了识别阶段步骤S4人声起点判定方法的优势。比如，对第15首歌-“孙子涵_全世界宣布爱你”，如图2所示，人声是从第750帧(即17.42秒)发出，但在此之前，背景音乐中铜管乐器对人声检测产生较强的干扰，导致从第367帧至750帧(即8.52秒至17.42秒)，有125帧(即31.57％)背景音乐帧被错误地识别成了人声，但这并没有对最终的人声位置估计产生多大影响，本发明方法最终的估计误差仅为-0.19秒而非-8.90秒(-8.90＝8.52-17.42)；对第6首歌-“金玟岐_痛快”，由于人声发音非常短促，如图3所示，在人声起始部分(第224帧到300帧的77帧)，仅有43％的人声帧被正确识别出来，本方法包容了部分识别错误，最终检测出的人声起始位置相对真值仅有1.98秒的滞后。

表1检测结果表

2.运行速度

下面将本发明方法与基于SVM、ANN分类器的两种方法的运行速度的进行比较。在这两种方法中，音频特征都采用标准39维的MFCC特征，其中包括基本系数及其一阶差分系数和二阶差分系数。三种方法采用相同的训练集和检测集。本发明方法的程序均是由Python编写，测试机器为Intel(R)i7处理器，主频为2.4GHz，内存为16GB。对检测集音频，平均检测一首歌的执行时间如表2所示。

表2训练和检测时间(单位：秒)

方法	平均训练时间	平均检测时间
			基于ANN方法	144	17.1
基于SVM方法	10.76	9.16
			本发明	1.46	0.61

可以看到，相对于基于ANN和基于SVM的方法，本发明方法训练时间大大缩短，且检测时间也有明显优势，平均仅用0.61秒就完成了单首歌曲的人声起始位置检测，因而程序能从容地对不断输入的音频流做实时的检测，完全满足实时应用的需求。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种歌曲中人声起始位置的实时检测方法，包括训练和识别两个阶段，包括以下步骤：

训练阶段：

S11.音频数据分帧：将音频转化为采样率为22050Hz的单声道音频，将转换后的数据按固定长度L划分为各音频帧，相邻帧间有重叠，重叠长度为3/4帧～9/10帧；将每一帧数据排列成一列矢量，并将其中各元素除以矢量中元素绝对值的最大值进行归一化，将归一化后的列矢量a按列追加到训练数据矩阵A中，即A＝[A,a]；得到更新的训练数据矩阵