CN109545191B - 一种歌曲中人声起始位置的实时检测方法 - Google Patents

一种歌曲中人声起始位置的实时检测方法 Download PDF

Info

Publication number
CN109545191B
CN109545191B CN201811358618.XA CN201811358618A CN109545191B CN 109545191 B CN109545191 B CN 109545191B CN 201811358618 A CN201811358618 A CN 201811358618A CN 109545191 B CN109545191 B CN 109545191B
Authority
CN
China
Prior art keywords
voice
frame
audio
data
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811358618.XA
Other languages
English (en)
Other versions
CN109545191A (zh
Inventor
甘涛
甘云强
何艳敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201811358618.XA priority Critical patent/CN109545191B/zh
Publication of CN109545191A publication Critical patent/CN109545191A/zh
Application granted granted Critical
Publication of CN109545191B publication Critical patent/CN109545191B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Abstract

本发明属于数字音频处理技术领域,涉及人声检测问题,具体为一种歌曲中人声起始位置估计方法,该方法采用高重叠的长窗口对音频进行分帧,并提取频率间(频域)和帧间(时域)两个维度的动态特征,有效地捕获了初始发声阶段的音频特性,通过对歌声起点片段的学习,将歌曲划分为乐器声和人声(或乐器‑人声混合声)两类,较准确地估计出人声起始位置,且具有较好的人声/乐器声判定容错性;同时,该方法算法简单、处理快速,能够广泛应用于广播电台的节目播出、自动化数字媒体管理等。

Description

一种歌曲中人声起始位置的实时检测方法
技术领域
本发明属于数字音频处理技术领域,涉及人声检测问题,具体为一种歌曲中人声起始位置估计方法,该方法可应用于广播音频的实时人声位置打点标记。
背景技术
一首歌曲通常由纯伴奏和演唱两部分构成,其中纯伴奏部分是纯粹由伴奏乐器产生,不含人声的部分,而演唱部分是人声与伴奏音乐的叠加。在当前数字媒体资料管理中,对一首歌曲,往往需要将其中的人声起始位置(起点)进行打点标记。人声起点信息有诸多用途,比如在广播电台的直播节目中,人声起点位置可帮助主持人控制说话时长、设置相邻歌曲交叉淡入淡出等;另外,人声起点位置有利于现代媒体管理中对歌曲的各种自动化处理,如快速定位歌曲内容、歌词对齐、歌词识别和歌手识别等。
研究表明,在歌曲中检测或区分出人声是一项富有难度的任务;歌曲中的器乐声通常都是宽频带、具有谐波成分并与人声组成一个协调一致的整体,这使得人声位置估计变得十分困难;同时,弦乐器、木管乐器以及铜管乐器等发出的器乐声表现出与人声相似的特征,容易被误判为人声,这对准确检测人声位置提出了另一个挑战。
通常人声检测过程包括提取音频特征和将人声/乐器声分类两个环节。在特征提取方面,常用的特征有短时能量、过零率(ZCR)、梅尔频率倒谱系数(MFCC)、线性预测倒谱系数(LPCC)、线性预测编码(LPC)等等,而且多特征组合的使用也比较常见。在分类方面,主要使用的是基于统计模型的分类器,如隐马科夫模型(HMM)、高斯混合模型(GMM)、支持向量机(SVM)、人工神经网络(ANN)分类器等。由前分析知,由于歌曲中乐器声对人声的影响,很多常见的人声特征变得模糊甚至失效,进而使得多特征组合也收效甚微,不足以弥补引入多个特征带来的运算代价;在分类器方面,各自分类器的效果差别不十分明显;另外,效果相对较好的ANN方法,还存在训练时间长,需要的样本数多等缺点。总之,在缺乏针对乐器-人声混合声的有效特征表达的情况下,目前人声检测的准确率低于90%,进而使得估计人声起点的准确率难以达到实用要求。
发明内容
本发明的目的在于针对背景技术存在的问题,提供一种歌曲中人声起始位置的实时检测方法,本发明采用新的音频处理和人声位置的估计方法。为实现该目的,本发明采用的技术方案为:
一种歌曲中人声起始位置的实时检测方法,包括训练和识别两个阶段,包括以下步骤:
训练阶段:
S1.读取训练音频帧:初始化训练数据矩阵A为空,对每一个参与训练的音频文件,作如下处理:
S11.音频数据分帧:将音频转化为采样率为22050Hz的单声道音频,将转换后的数据按固定长度L(2048≤L≤8192,L的单位为采样点)划分为各音频帧,相邻帧间有重叠,重叠长度为3/4帧~9/10帧;将每一帧数据排列成一列矢量,并将其中各元素除以矢量中元素绝对值的最大值进行归一化,将归一化后的列矢量a按列追加到数据矩阵A中,即A=[A,a];得到更新的训练数据矩阵
Figure BDA0001866716650000021
其中,aj表示第j帧数据,j=1,2,...,Ntrain,Ntrain为处理完所有文件后的音频总帧数;
S12.对训练数据矩阵A中的每一帧数据,通过人工判定出该帧是人声或乐器声,并将判定结果作为该帧的类别标签记录到标签矢量中,得到标签矢量
Figure BDA0001866716650000022
其中,zj表示第j帧数据的类别,zj=1表示其类别为人声,zj=0表示其类别为乐器声;
S2.对训练数据矩阵A中的每一帧aj(j=1,2,...,Ntrain)进行处理,具体过程如下:
S21.计算功率谱:对音频帧aj的数据进行加窗处理,并进行短时傅里叶变换,得到音频帧的频谱;对频谱幅度值求平方得到功率谱bj=[b1,j,b2,j,...,bk,j,...,bL/2+1,j]T,其中,bk,j表示第j帧数据的第k个频率点的功率,k=1,2,...,L/2+1;
S22.梅尔滤波:
梅尔滤波器组设计:按照梅尔频率,在0~22050Hz的频率段设计30个三角带通滤波器,每一个三角形滤波器的中心频率在梅尔频率轴上等间距分布;设第i(i=1,2,...,30)个三角形滤波器的下限频率编号为o(i)、中心频率编号为c(i)、上限频率编号为h(i),相邻三角形滤波器的下限、中心、上限频率编号满足如下关系:
c(i)=h(i-1)=o(i+1) (1)
梅尔滤波器组滤波:用设计出的滤波器组对音频帧aj进行滤波处理,得到uj=[u1,j,u2,j,u3,j,...,ui,j,...,u30,j]T,其中,ui,j表示第i个三角形滤波器对第j帧数据滤波输出的自然对数,其计算公式如下
Figure BDA0001866716650000031
其中,
Figure BDA0001866716650000032
S3.生成音频特征:
S31.横向差分:计算时间方向的一阶差分:
Figure BDA0001866716650000033
且令
Figure BDA0001866716650000034
得到
Figure BDA0001866716650000035
其中,
Figure BDA0001866716650000036
表示第j帧数据的第i个横向差分系数;
S32.纵向差分:计算频率方向的一阶差分:
Figure BDA0001866716650000037
得到
Figure BDA0001866716650000038
其中,
Figure BDA0001866716650000039
表示第j帧数据的第i个纵向差分系数;
S33.组合特征:组合步骤S22,S31和S32得到数据,生成特征数据矩阵
Figure BDA00018667166500000310
其中,
Figure BDA00018667166500000311
S4.生成决策分类器:
对特征数据矩阵F和标签矢量z,使用随机森林方法,生成n棵决策树,记为t1,t2,t3,...,tn,其中,n为预设的决策树数目,最终形成决策分类器T=[t1,t2,t3,...,tn];
识别阶段:
S1.读取检测音频帧:按照训练阶段步骤S11,读取待检测音频文件,并对其进行数据分帧,得到检测数据矩阵
Figure BDA0001866716650000041
其中,a'j'表示第j'帧数据,j'=1,2,3,...,Ntest,Ntest为待检测音频文件的总音频帧数;
S2.生成音频特征:按训练阶段步骤S2~S3对待检测音频文件生成音频特征,得到检测特征矩阵
Figure BDA0001866716650000042
S3.判定帧类别:
对检测特征矩阵F'中的每一列(或帧),使用决策分类器T,按照决策树判定方法进行人声/乐器声的类别判定,得到各检测帧的预测类别矢量
Figure BDA0001866716650000043
其中,pj'=1表示第j'帧的预测类别为人声,pj'=0表示第j'帧的预测类别为乐器声;
S4.估计人声起始位置:
S41.设置初始帧位置j'=2,初始人声起点位置Pos=1;
S42.判断当前第j'帧是否满足条件:pj'=1且pj'-1=0,若满足,则执行步骤S43,否则,执行步骤S48;
S43.初始化:检测窗起点start=j',设置检测窗的长度为len,检测窗起点的最大值为start_max;
S44.计算当前窗口[start,start+len-1]中人声帧的帧数占总帧数的比例R;
S45.若R小于设定的不可信人声占比阈值TR0(0.4≤TR0≤0.6),则转到步骤S48;否则,执行步骤S46;
S46.若R大于设定的可信人声占比阈值TR1(0.7≤TR1≤0.8),则令Pos=j',并转到步骤S49,否则,执行步骤S47;
S47.更新start=start+len,若start≤start_max,则转到步骤S44继续下一次迭代;否则,执行步骤S48;
S48.更新j'=j'+1,并进行判断,若j'≤Ntest-len,则转到步骤S42;否则,结束检测,输出未检测到人声;
S49.估计人声起点位置:time=Pos×Δt,其中,Δt为一个音频帧的时长,其单位为秒;结束检测,输出人声起始点估计位置time。
本发明的有益效果在于:
本发明提供一种歌曲中人声起始位置的检测方法,该方法采用高重叠的长窗口对音频进行分帧,并提取频率间(频域)和帧间(时域)两个维度的动态特征,有效地捕获了初始发声阶段的音频特性,通过对歌声起点片段的学习,将歌曲划分为乐器声和人声(或乐器-人声混合声)两类,较准确地估计出人声起始位置,且具有较好的人声/乐器声判定容错性;同时,该方法算法简单、处理快速,能够广泛应用于广播电台的节目播出、自动化数字媒体管理等。
附图说明:
图1为本发明实施例中歌曲中人声起始位置的实时检测方法的流程示意图,其中包含了生成决策分类器、判定帧类别、估计人声起始位置等步骤。
图2为本发明实施例中对第15首歌曲的前1200帧,音频帧类别的人工标记(真值)和检测结果(估计值)的对比情况;其中,(a)为音频帧类别的真值,(b)为音频帧类别的估计值,两个子图横坐标均为帧编号,纵坐标均为类别,1表示人声,0表示乐器声。
图3为本发明实施例中对第6首歌曲的前1200帧,音频帧类别的人工标记(真值)和检测结果(估计值)的对比情况;其中,(a)为音频帧类别的真值,(b)为音频帧类别的估计值,两个子图横坐标均为帧编号,纵坐标均为类别,1表示人声,0表示乐器声。
具体实施方式
下面结合附图和实施例对本发明做进一步详细说明。
本实施例中提供一种歌曲中人声起始位置的检测方法,其流程示意图如图1所示;包括包括训练和识别两个阶段;本实施例中,仿真实验使用的歌曲共120首,其中前100首为训练音频,后20首歌曲为检测音频;对每个训练音频均进行如下预处理:1)将音频进行剪切,只保留其前面部分,保留的区间为音频开始到人声起始位置后10秒;2)标记人声起始位置时刻。
本实施例中歌曲中人声起始位置的检测方法,具体步骤如下:
·训练阶段:
S1.读取训练音频帧:设训练数据矩阵A的初值为空,对每一个参与训练的音频文件,作如下处理:
S11.音频数据分帧:将音频转化为采样率为22050Hz的单声道音频,将转换后的数据按固定长度L=4096划分为各音频帧,相邻帧间有7/8帧长度的重叠;将每一帧数据排列成一列矢量,并将其中各元素除以矢量中元素绝对值的最大值进行归一化,将归一化后的列矢量a按列追加到训练数据矩阵A中,即A=[A,a];处理完所有文件后的音频总帧数Ntrain为137743,则训练数据矩阵A=[a1,a2,a3,...,a137743],其中A的每一列aj表示第j帧的数据;
S12.对训练数据矩阵A中的每一列(或帧),人工判定出该帧是人声或乐器声,并将判定结果作为该帧的类别标签记录到标签矢量z=[z1,z2,z3,...,z137743]中,其中zj表示第j帧的类别,zj=1表示其类别为人声,zj=0表示其类别为乐器声;
下面以处理歌曲“蔡琴_海上花”的第1000帧为例进行说明;
S2.读取A中的第1000帧数据a1000,有a1000=[0.0102,0.0104,0.0107,...,-0.0080]T,进行如下处理:
S21.计算功率谱:对音频帧a1000的数据进行加汉明窗处理,进行短时傅里叶变换,得到音频帧的频谱;对频谱幅度值求平方得到功率谱b1000=[8.315807,125.261691,122.165653,...,0.000002]T
S22.梅尔滤波:
S221.梅尔滤波器组设计:按照梅尔频率,在0~22050Hz的频率段设计30个三角带通滤波器,每一个三角形滤波器的中心频率在梅尔频率轴上是等间距分布的。设第i个三角形滤波器的下限频率编号为o(i)、中心频率编号为c(i)和上限频率编号为h(i),相邻三角形滤波器的下限、中心和上限频率编号满足如下关系:
c(i)=h(i-1)=o(i+1) (1)
以第1个三角带通滤波器为例,其中o(1)=0Hz,c(1)=66.6Hz,h(1)=139.6Hz;
S222.梅尔滤波器组滤波:用设计出的滤波器组对音频帧a1000进行滤波处理,其计算公式如下
Figure BDA0001866716650000061
其中
Figure BDA0001866716650000071
得到梅尔滤波器组对a1000的滤波输出u1000=[u1,1000,u2,1000,u3,1000,...,u30,1000]T=[-198.5685,70.9043,17.7027,...,-0.0130]T
S3.生成音频特征:
S31.横向差分:计算音频帧a1000时间方向的一阶差分
Figure BDA0001866716650000072
Figure BDA0001866716650000073
得到
Figure BDA0001866716650000074
S32.纵向差分:计算音频帧a1000频率方向的一阶差分
Figure BDA0001866716650000075
得到
Figure BDA0001866716650000076
S33.组合特征:组合步骤S22,S31和S32得到数据,生成音频帧a1000的特征数据矢量
Figure BDA0001866716650000077
S4.生成决策分类器:
对特征数据矩阵F和对应的标签矢量z,使用随机森林算法,生成128棵决策树,记为t1,t2,t3,...,t128,最终形成决策分类器T=[t1,t2,t3,...,t128];
·识别阶段:
下面以处理歌曲“本兮_爱之光”为例进行说明;
S1.读取检测音频帧:按照阶段步骤S11,读取待检测某音频文件前2分钟的数据,并对其进行数据分帧,分帧后的音频总帧数Ntest为5168,则检测数据矩阵A'=[a'1,a'2,a'3,...,a'5168],其中A'的每一列a'j'(1≤j'≤5168)表示第j'帧的数据;
S2.生成音频特征:按训练阶段步骤S2~S3,进行读取音频帧、计算功率谱、梅尔滤波和生成音频特征等处理,最终得到检测特征矩阵F'=[f'1,f'2,f'3,...,f'5168],其中f'1=[-210.1838,27.8589,17.6038,...,1.0495]T
S3.判定帧类别:
对检测特征矩阵F'中的每一列(或帧),使用决策分类器T,按照决策树判定方法进行人声/乐器声的类别判定,得到各检测帧的预测类别矢量p=[p1,p2,p3,...,p56,p57,p58,...,p5168]T=[0,0,0,...,1,1,0,...,0]T,其中,pj'=1表示第j'帧的预测类别为人声,pj'=0表示第j'帧的预测类别为乐器声;第一个1出现在位置56处;
S4.估计人声起始位置:
S41.设置初始帧位置j'=2,初始人声起点位置Pos=1;
S42.判断当前第j'帧是否满足“pj'=1且pj'-1=0”,在j'=56帧处,第一次满足条件,作如下迭代操作:
S43.初始化:设置检测窗的长度为len为1秒钟对应的整帧数43,初始检测窗起点start=56,检测窗起点的最大值为start_max为start加上4秒钟对应的整帧数172,即start_max=56+172=228;
S44.计算当前窗口[56,56+43-1]中人声帧的帧数占总帧数的比例
Figure BDA0001866716650000081
S45.由于R小于不可信人声占比阈值TR0=0.5,则令j'=56+1=57,并转到步骤S42继续检测下一个帧位置;
S46.第一次到达该步骤时,j'=670,此时计算出的R=0.604,由于R小于设定的可信人声占比阈值TR1=0.75,不做处理,执行步骤S47;直到j'=1362,此时计算出的R=0.975,由于R>TR1,令Pos=1362,并转到步骤S49;
S47.更新start=start+43,当start≤start_max时转到步骤S44继续下一次迭代;
S48.更新j'=j'+1,并进行判断,当j'≤Ntest-len时转到步骤S42继续检测下一个帧位置,否则结束整个检测;
S49.估计人声起点位置:计算一个音频帧的时长Δt:Δt=512/22050≈0.0232秒,则估计的人声起点位置time=Pos×Δt=1362×0.0232≈31.60秒。
下面分别从估计正确率和运行速度两方面来进行性能评估。
1.估计正确率
检测结果如表1所示。表中的“平均帧识别率”是识别阶段步骤S3输出的所有帧的预测结果的平均正确率,“标识人声起始位置”为人工标记的真实值,“估计的人声起始位置”为本方法最终输出结果,“估计误差”为估计值与真实值之差,估计误差为正代表估计点的位置滞后于真实点,为负代表估计点的位置超前于真实点;“结果评定”按如下规则确定:设置允许误差范围为±1秒,估计误差落在允许范围内则评定为正确,反之为错误;为此,对表中20首检测音频,有18首评定为正确,检测正确率为90%。
可以看到,本发明方法具有较好的分类容错性,即在对音频帧人声识别率不高的情况下,仍能相对准确地检测出人声起始位置,这显示了识别阶段步骤S4人声起点判定方法的优势。比如,对第15首歌-“孙子涵_全世界宣布爱你”,如图2所示,人声是从第750帧(即17.42秒)发出,但在此之前,背景音乐中铜管乐器对人声检测产生较强的干扰,导致从第367帧至750帧(即8.52秒至17.42秒),有125帧(即31.57%)背景音乐帧被错误地识别成了人声,但这并没有对最终的人声位置估计产生多大影响,本发明方法最终的估计误差仅为-0.19秒而非-8.90秒(-8.90=8.52-17.42);对第6首歌-“金玟岐_痛快”,由于人声发音非常短促,如图3所示,在人声起始部分(第224帧到300帧的77帧),仅有43%的人声帧被正确识别出来,本方法包容了部分识别错误,最终检测出的人声起始位置相对真值仅有1.98秒的滞后。
表1检测结果表
Figure BDA0001866716650000091
Figure BDA0001866716650000101
2.运行速度
下面将本发明方法与基于SVM、ANN分类器的两种方法的运行速度的进行比较。在这两种方法中,音频特征都采用标准39维的MFCC特征,其中包括基本系数及其一阶差分系数和二阶差分系数。三种方法采用相同的训练集和检测集。本发明方法的程序均是由Python编写,测试机器为Intel(R)i7处理器,主频为2.4GHz,内存为16GB。对检测集音频,平均检测一首歌的执行时间如表2所示。
表2训练和检测时间(单位:秒)
方法 平均训练时间 平均检测时间
基于ANN方法 144 17.1
基于SVM方法 10.76 9.16
本发明 1.46 0.61
可以看到,相对于基于ANN和基于SVM的方法,本发明方法训练时间大大缩短,且检测时间也有明显优势,平均仅用0.61秒就完成了单首歌曲的人声起始位置检测,因而程序能从容地对不断输入的音频流做实时的检测,完全满足实时应用的需求。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。

Claims (1)

1.一种歌曲中人声起始位置的实时检测方法,包括训练和识别两个阶段,包括以下步骤:
训练阶段:
S1.读取训练音频帧:初始化训练数据矩阵A为空,对每一个参与训练的音频文件,作如下处理:
S11.音频数据分帧:将音频转化为采样率为22050Hz的单声道音频,将转换后的数据按固定长度L划分为各音频帧,相邻帧间有重叠,重叠长度为3/4帧~9/10帧;将每一帧数据排列成一列矢量,并将其中各元素除以矢量中元素绝对值的最大值进行归一化,将归一化后的列矢量a按列追加到训练数据矩阵A中,即A=[A,a];得到更新的训练数据矩阵
Figure FDA0003900164700000011
其中,aj表示第j帧数据,j=1,2,...,Ntrain,Ntrain为参与训练的音频总帧数;
S12.对训练数据矩阵A中的每一帧数据,通过人工判定出该帧是人声或乐器声,并将判定结果作为该帧的类别标签记录到标签矢量中,得到标签矢量
Figure FDA0003900164700000012
其中,zj表示第j帧数据的类别,zj=1表示其类别为人声,zj=0表示其类别为乐器声;
S2.对训练数据矩阵A中的每一帧aj(j=1,2,...,Ntrain)进行处理,具体过程如下:
S21.计算功率谱:对音频帧aj的数据进行加窗处理,并进行短时傅里叶变换,得到音频帧的频谱;对频谱幅度值求平方得到功率谱bj=[b1,j,b2,j,...,bk,j,...,bL/2+1,j]T,其中,bk,j表示第j帧数据的第k个频率点的功率,k=1,2,...,L/2+1;
S22.梅尔滤波:用标准梅尔滤波器组对bj进行滤波处理,得到uj=[u1,j,u2,j,u3,j,...,ui,j,...,uI,j]T,其中,ui,j表示第i个三角形滤波器对第j帧数据滤波输出的自然对数,I表示梅尔滤波器组中滤波器的数量;
S3.生成音频特征:
S31.横向差分:计算时间方向的一阶差分:
Figure FDA0003900164700000013
且令
Figure FDA0003900164700000014
得到
Figure FDA0003900164700000015
其中,
Figure FDA0003900164700000016
表示第j帧数据的第i个横向差分系数;
S32.纵向差分:计算频率方向的一阶差分:
Figure FDA0003900164700000021
得到
Figure FDA0003900164700000022
其中,
Figure FDA0003900164700000023
表示第j帧数据的第i个纵向差分系数;
S33.组合特征:组合步骤S22,S31和S32得到数据,生成特征数据矩阵
Figure FDA0003900164700000024
其中,
Figure FDA0003900164700000025
S4.生成决策分类器:
对特征数据矩阵F和标签矢量z,使用随机森林方法,生成n棵决策树,记为t1,t2,t3,...,tn,其中,n为预设的决策树数目,最终形成决策分类器T=[t1,t2,t3,...,tn];
识别阶段:
S1.读取检测音频帧:按照训练阶段步骤S11,读取待检测音频文件,并对其进行数据分帧,得到检测数据矩阵
Figure FDA0003900164700000026
其中,a'j'表示第j'帧数据,j'=1,2,3,...,Ntest,Ntest为待检测音频文件的总音频帧数;
S2.生成音频特征:按训练阶段步骤S2~S3对待检测音频文件生成音频特征,得到检测特征矩阵
Figure FDA0003900164700000027
S3.判定帧类别:
对检测特征矩阵F'中的每一列,使用决策分类器T,按照决策树判定方法进行人声/乐器声的类别判定,得到各检测帧的预测类别矢量
Figure FDA0003900164700000028
其中,pj'=1表示第j'帧的预测类别为人声,pj'=0表示第j'帧的预测类别为乐器声;
S4.估计人声起始位置:
S41.设置初始帧位置j'=2,初始人声起点位置Pos=1;
S42.判断当前第j'帧是否满足条件:pj'=1且pj'-1=0,若满足,则执行步骤S43,否则,执行步骤S48;
S43.初始化:检测窗起点start=j',设置检测窗的长度为len,检测窗起点的最大值为start_max;
S44.计算当前窗口[start,start+len-1]中人声帧的帧数占总帧数的比例R;
S45.若R小于设定的不可信人声占比阈值TR0,则转到步骤S48;否则,执行步骤S46;所述不可信人声占比阈值TR0的取值范围为:0.4≤TR0≤0.6;
S46.若R大于设定的可信人声占比阈值TR1,则令Pos=j',并转到步骤S49,否则,执行步骤S47;所述可信人声占比阈值TR1的取值范围为:0.7≤TR1≤0.8;
S47.更新start=start+len,若start≤start_max,则转到步骤S44继续下一次迭代;否则,执行步骤S48;
S48.更新j'=j'+1,并进行判断,若j'≤Ntest-len,则转到步骤S42;否则,结束检测,输出未检测到人声;
S49.估计人声起点位置:time=Pos×Δt,其中,Δt为一个音频帧的时长;结束检测,输出人声起始点估计位置time。
CN201811358618.XA 2018-11-15 2018-11-15 一种歌曲中人声起始位置的实时检测方法 Active CN109545191B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811358618.XA CN109545191B (zh) 2018-11-15 2018-11-15 一种歌曲中人声起始位置的实时检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811358618.XA CN109545191B (zh) 2018-11-15 2018-11-15 一种歌曲中人声起始位置的实时检测方法

Publications (2)

Publication Number Publication Date
CN109545191A CN109545191A (zh) 2019-03-29
CN109545191B true CN109545191B (zh) 2022-11-25

Family

ID=65847587

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811358618.XA Active CN109545191B (zh) 2018-11-15 2018-11-15 一种歌曲中人声起始位置的实时检测方法

Country Status (1)

Country Link
CN (1) CN109545191B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110097895B (zh) * 2019-05-14 2021-03-16 腾讯音乐娱乐科技(深圳)有限公司 一种纯音乐检测方法、装置及存储介质
CN110047514B (zh) * 2019-05-30 2021-05-28 腾讯音乐娱乐科技(深圳)有限公司 一种伴奏纯净度评估方法以及相关设备
CN110827798B (zh) * 2019-11-12 2020-09-11 广州欢聊网络科技有限公司 一种音频信号处理的方法及装置
CN111613213B (zh) * 2020-04-29 2023-07-04 广州欢聚时代信息科技有限公司 音频分类的方法、装置、设备以及存储介质
CN112967738A (zh) * 2021-02-01 2021-06-15 腾讯音乐娱乐科技(深圳)有限公司 人声检测方法、装置及电子设备和计算机可读存储介质
CN113052138B (zh) * 2021-04-25 2024-03-15 广海艺术科创(深圳)有限公司 一种舞蹈与运动动作的智能对比矫正的方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5296643A (en) * 1992-09-24 1994-03-22 Kuo Jen Wei Automatic musical key adjustment system for karaoke equipment
CN1763844A (zh) * 2004-10-18 2006-04-26 中国科学院声学研究所 基于滑动窗口的端点检测方法、装置和语音识别系统
CN1912993A (zh) * 2005-08-08 2007-02-14 中国科学院声学研究所 基于能量及谐波的语音端点检测方法
CN101359472A (zh) * 2008-09-26 2009-02-04 炬力集成电路设计有限公司 一种人声判别的方法和装置
CN103489445A (zh) * 2013-09-18 2014-01-01 百度在线网络技术(北京)有限公司 一种识别音频中人声的方法及装置
CN104021789A (zh) * 2014-06-25 2014-09-03 厦门大学 一种利用短时时频值的自适应端点检测方法
CN104091600A (zh) * 2014-03-21 2014-10-08 腾讯科技(深圳)有限公司 一种歌声位置检测方法及装置
CN104143324A (zh) * 2014-07-14 2014-11-12 电子科技大学 一种乐音音符识别方法
CN106571150A (zh) * 2015-10-12 2017-04-19 阿里巴巴集团控股有限公司 定位音乐人声区的方法和系统
CN108235115A (zh) * 2017-12-13 2018-06-29 福州星网视易信息系统有限公司 一种歌曲视频中人声区域定位的方法及终端

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8401683B2 (en) * 2009-08-31 2013-03-19 Apple Inc. Audio onset detection

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5296643A (en) * 1992-09-24 1994-03-22 Kuo Jen Wei Automatic musical key adjustment system for karaoke equipment
CN1763844A (zh) * 2004-10-18 2006-04-26 中国科学院声学研究所 基于滑动窗口的端点检测方法、装置和语音识别系统
CN1912993A (zh) * 2005-08-08 2007-02-14 中国科学院声学研究所 基于能量及谐波的语音端点检测方法
CN101359472A (zh) * 2008-09-26 2009-02-04 炬力集成电路设计有限公司 一种人声判别的方法和装置
CN103489445A (zh) * 2013-09-18 2014-01-01 百度在线网络技术(北京)有限公司 一种识别音频中人声的方法及装置
CN104091600A (zh) * 2014-03-21 2014-10-08 腾讯科技(深圳)有限公司 一种歌声位置检测方法及装置
CN104021789A (zh) * 2014-06-25 2014-09-03 厦门大学 一种利用短时时频值的自适应端点检测方法
CN104143324A (zh) * 2014-07-14 2014-11-12 电子科技大学 一种乐音音符识别方法
CN106571150A (zh) * 2015-10-12 2017-04-19 阿里巴巴集团控股有限公司 定位音乐人声区的方法和系统
CN108235115A (zh) * 2017-12-13 2018-06-29 福州星网视易信息系统有限公司 一种歌曲视频中人声区域定位的方法及终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
歌唱人声分离算法改进研究;汤政;《电声技术》;20131217(第12期);全文 *

Also Published As

Publication number Publication date
CN109545191A (zh) 2019-03-29

Similar Documents

Publication Publication Date Title
CN109545191B (zh) 一种歌曲中人声起始位置的实时检测方法
Dhingra et al. Isolated speech recognition using MFCC and DTW
US8880409B2 (en) System and method for automatic temporal alignment between music audio signal and lyrics
Carey et al. A comparison of features for speech, music discrimination
JP4802135B2 (ja) 話者認証登録及び確認方法並びに装置
Kumar et al. Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm
CN108922541B (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN109545189A (zh) 一种基于机器学习的口语发音检错与纠正系统
US20050192795A1 (en) Identification of the presence of speech in digital audio data
CN105825852A (zh) 一种英语口语朗读考试评分方法
JP2001503154A (ja) 音声認識システムにおける隠れマルコフ音声モデルの適合方法
Vyas A Gaussian mixture model based speech recognition system using Matlab
Nwe et al. Singing voice detection in popular music
Razak et al. Quranic verse recitation recognition module for support in j-QAF learning: A review
Sonnleitner et al. A simple and effective spectral feature for speech detection in mixed audio signals
Toh et al. Multiple-Feature Fusion Based Onset Detection for Solo Singing Voice.
CN109410968B (zh) 一种高效的歌曲中人声起始位置检测方法
Maganti et al. Unsupervised speech/non-speech detection for automatic speech recognition in meeting rooms
CN112349267B (zh) 基于注意力机制特征的合成语音检测方法
Fujihara et al. Three techniques for improving automatic synchronization between music and lyrics: Fricative detection, filler model, and novel feature vectors for vocal activity detection
Zolnay et al. Extraction methods of voicing feature for robust speech recognition.
Kraljevski et al. Comparison of forced-alignment speech recognition and humans for generating reference VAD
CN115050387A (zh) 一种艺术测评中多维度唱奏分析测评方法及系统
Ou et al. Probabilistic acoustic tube: a probabilistic generative model of speech for speech analysis/synthesis
CN113129923A (zh) 一种艺术测评中多维度唱奏分析测评方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant