CN106571150A - 定位音乐人声区的方法和系统 - Google Patents
定位音乐人声区的方法和系统 Download PDFInfo
- Publication number
- CN106571150A CN106571150A CN201510657200.9A CN201510657200A CN106571150A CN 106571150 A CN106571150 A CN 106571150A CN 201510657200 A CN201510657200 A CN 201510657200A CN 106571150 A CN106571150 A CN 106571150A
- Authority
- CN
- China
- Prior art keywords
- frame
- module
- detection
- carried out
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000001514 detection method Methods 0.000 claims abstract description 55
- 230000005236 sound signal Effects 0.000 claims abstract description 24
- 238000001228 spectrum Methods 0.000 claims description 36
- 238000012549 training Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 13
- 238000009432 framing Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 10
- 238000009499 grossing Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 3
- 238000007689 inspection Methods 0.000 claims 3
- 230000006870 function Effects 0.000 description 6
- 238000003860 storage Methods 0.000 description 6
- 230000004907 flux Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000004069 differentiation Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012706 support-vector machine Methods 0.000 description 3
- 241001342895 Chorus Species 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000011017 operating method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本申请公开一种定位音乐人声区的方法和系统,该方法包括:将音频信号进行分帧处理得到多个数据帧;分别对每一个数据帧进行静音检测判断是否为静音帧,如果是则判定该数据帧为非人声帧,否则对所述数据帧进行谐波检测;判断所述数据帧是否为非谐波帧,如果是则判定所述数据帧为非人声帧,否则对所述数据帧进行人声分类检测判定所述数据帧是否为人声帧;将多个数据帧的判定结果合并为帧序列判定结果,并根据所述帧序列判定结果定位所述音频信号的人声区。通过本申请能够有效定位音乐中的人声区。
Description
技术领域
本申请涉及音乐信息检测技术领域,尤其涉及一种定位音乐人声区的方法和系统。
背景技术
检测音乐中的人声一直以来都是MIR(music information retrieval,音乐信息检索)领域中一项难度很大,并具有挑战性的基础问题。
歌曲中的内容包括音乐和人声两部分,它们之间的频谱相互重叠,互相影响。虽然人耳能很清晰的分辨出含人声的音乐,但是对于计算机等机器设备来说,还不能够有效识别出音乐和人声。
综上所述,现有技术中检测音乐中的人声的技术方案的检测准确率都比较低。
发明内容
本申请的主要目的在于提供一种定位音乐人声区的方法和系统,以克服现有技术中的检测音乐中的人声的检测准确率较低的问题。
根据本申请实施例提供了一种定位音乐人声区的方法,其包括:
将音频信号进行分帧处理得到多个数据帧;
分别对每一个数据帧进行静音检测判断是否为静音帧,如果是则判定该数据帧为非人声帧,否则对所述数据帧进行谐波检测;
判断所述数据帧是否为非谐波帧,如果是则判定所述数据帧为非人声帧,否则对所述数据帧进行人声分类检测判定所述数据帧是否为人声帧;
将多个数据帧的判定结果合并为帧序列判定结果,并根据所述帧序列判定结果定位所述音频信号的人声区。
根据本申请实施例提供了一种定位音乐人声区的系统,其包括:分帧模块、静音检测模块、谐波检测模块、人声分类检测模块和人声区定位模块,其中,
所述分帧模块,用于将音频信号进行分帧处理得到多个数据帧;
所述静音检测模块,用于分别对每一个数据帧进行静音检测判断是否为静音帧,如果是则判定该数据帧为非人声帧,否则对所述数据帧执行所述谐波检测模块;
所述谐波检测模块,用于判断所述数据帧是否为非谐波帧,如果是则判定所述数据帧为非人声帧,否则执行所述人声分类检测模块;
所述人声分类检测模块,用于对所述数据帧进行人声分类检测判定所述数据帧是否为人声帧;
所述人声区定位模块,用于将多个数据帧的判定结果合并为帧序列判定结果,并根据所述帧序列判定结果定位所述音频信号的人声区。
根据本申请的技术方案,通过对音频信号分别进行静音检测、谐波检测、人声分类检测等多层次的检测,能够有效定位音乐中的人声区,基于帧级的准确率能够达到90%以上。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请一个实施例的定位音乐人声区的方法的流程图;
图2是根据本申请另一实施例的定位音乐人声区的方法的流程图;
图3是根据本申请一个实施例的人声分类检测方法的流程图;
图4是根据本申请一个实施例的计算MFCC的流程图;
图5是根据本申请一个实施例的定位音乐人声区的系统的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
根据本申请实施例,提供一种定位音乐人声区的方法。
图1是根据本申请一个实施例的定位音乐人声区的方法的流程图,如图1所示,所述方法至少包括以下步骤:
步骤S102,将音频信号进行分帧处理得到多个数据帧。
按照预设的帧长将预先获取的音频信号进行分帧,得到若干个数据帧。其中,所述分帧是将一个音频切分成多个时间片段,每个时间片对应于一帧数据。
步骤S104,分别对每一个数据帧进行静音检测判断是否为静音帧,如果是则判定该数据帧为非人声帧,否则对所述数据帧进行谐波检测。
步骤S106,判断所述数据帧是否为非谐波帧,如果是则判定所述数据帧为非人声帧,否则对所述数据帧进行人声分类检测判定所述数据帧是否为人声帧。
步骤S108,将对于多个数据帧的判定结果合并为帧序列判定结果,并根据所述帧序列判定结果定位所述音频信号的人声区。
通过上述实施例,分别对每帧数据进行静音检测、谐波检测和人声分类检测,通过三个层次的人声检测机制准确判断音频信号中的人声帧,从而有效定位音乐中的人声区。
下面结合图2详细描述上述处理的细节。图2是根据本申请另一实施例的定位音乐人声区的方法的流程图,如图2所述,所述方法至少包括以下步骤:
步骤S202,将预先获取的音频信号进行分帧处理得到多个数据帧。
在本申请实施例中,为减少计算量,缩小冗余信息,原始音频信号转成fs,采样频率16kHz,单声道。以帧长tms为50ms进行分帧处理,设xn(m)为第n帧的第m个样本点。
步骤S204,分别对每一个数据帧进行静音检测。
步骤S206,判断所述数据帧是否为静音帧,若是则判定该数据帧为非人声帧,否则执行步骤S208。
具体地,如果该帧所有样本点绝对值的最大值小于阈值threshold,且平均值小于则判定该帧为静音帧。
也就是说,如果max(abs(xn(m)))<threshold,且则判定该帧为静音帧。其中,max(.)表示取最大值,abs(.)表示取绝对值,mean(.)表示取平均值,threshold取0.03,1<m<fs*tms。
步骤S208,对所述数据帧进行谐波检测。
步骤S210,判断所述数据帧是否为非谐波帧,如果是则判定所述数据帧为非人声帧,否则执行步骤S212。
音乐中的人声频谱有非常明显的谐波结构(其中90%为浊音),而鼓声、打击乐器等无明显的谐波结构。因此,本步骤主要是通过基频检测,筛选出没有谐波结构的声谱,包括但不限于:鼓声、打击声、合成声、噪音等非人声单元。
具体地,本申请采用归一化的修正自相关方法来检测基频,公式如下:
其中,xn(m)为第n帧的第m个样本点,N为帧长,lag为偏移量(lag小于或等于N),Rn(k)为第n帧自相关第k个点的值。
设定基频范围80~800Hz,则Rn(k)在该范围内搜索出最大值max_value。
若max_value大于或等于0.3,即max_value=max(Rn(k)),max_value>=0.3,且则判定该数据帧为待定帧,执行步骤S212;否则判定该数据帧为非人声帧。其中,Nvoice表示Rn(k)大于或等于0.3的个数,Nunvoice表示小于0.3的个数。
由于如管弦类乐器也具有明显的谐波结构,通过上述处理后仍然无法有效区分出人声频谱和钢琴、管弦类乐器,下面继续执行步骤S212解决此问题。
步骤S212,对所述数据帧进行人声分类检测,判定所述数据帧是否为人声帧。
下面参考图3详细描述步骤S212的处理细节。图3是根据本申请另一实施例的人声分类检测方法的流程图,如图3所述,所述方法至少包括以下步骤:
步骤S302,根据预先设置的特征集合提取所述数据帧的特征数据。
根据本申请实施例的特征集合包括但不限于:MFCC及其一阶差分系数和二阶差分系数、LPCC、centroid、flatness、rolloff、flux、zcr、inharmonicity,下面详细描述每个特征的计算方式。
(1)MFCC(Mel-scaled Cepstrum Coefficients,梅尔倒谱系数)
乐器声与人声在听觉上有明显的不同,主要体现在音色的区分上,实际上是频谱的谐波泛音分布的不同,MFCC是基于人耳的听觉响应,它能比较好的描述能量谱的分布,差分系数能刻画出能量谱的波动和相关性。本申请采用MFCC及其一阶、二阶差分系数作为特征集的一部分。
参考图4,为计算MFCC的流程图。首先对音频流进行分帧,逐帧加窗,进行FFT变换得到该帧的功率谱S(n),转换成Mel尺度下的功率谱。
其中,频率f转换成Mel尺度公式为:
通过Mel带通滤波器组,得到M个子带功率值P(m)。
M个Mel三角带通滤波器组响应公式如下:
其中,1≤m≤M,M一般取40,f(m)表示第m个三角滤波器的中心频率。
接着,P(m)取对数,得到X(m)=log(P(m)),对X(m)进行N阶DCT变换,Xk即为标准的MFCC系数,其中:
N一般取13。
进一步,一阶差分公式为:
用同样的公式处理一阶差分系数,便可得到二阶差分系数。
(2)LPCC(线性预测倒谱系数)
LPCC反映语音频谱的包络变化,而LPC(线性预测)系统其实就是全极点模型,采样点n的输出s(n)可以通过前p个样本点线性组合:
s(n)≈a1s(n-1)+a2s(n-2)+…aps(n-p)
而a1、a2…ap即为P阶LPC系数,它由该模型的系统误差平方和最小化求得。
LPCC系数cm可以通过对LPC系数推导出来:
(3)Centroid(频谱的质心)
相对于纯音乐区域,人声区的频谱的质心会偏向于800~4000Hz区域。
Centroid计算公式如下:
其中,一帧数据经过N个点FFT变换后,第n个点的幅值用X(n)表示。
(4)Flatness(频谱的平滑度)
其描述了频谱的平坦度,弦乐器的频谱一般都比较平坦。
Flatness计算公式如下:
(5)RollOff(频谱的衰减度)
RollOff反映频谱的形状,人声区的主要能量集中在4000Hz以内。其计算公式如下:
(6)Flux(频谱的局部变化量)
Flux反映前后帧之间的变化,其描述相邻两帧的能量谱变化。Flux计算公式如下:
(7)Zcr(过零率)
Zcr反映了扰动、混乱的程度,类似鼓声等Zcr合成音较大。其计算公式如下:
其中,x(m)表示一帧数据的第m个点。
(8)Inharmonicity(频谱的谐波失真度)
Inharmonicity反映谐波的失真程度,纯弦乐器的谐波比较固定,规律明显,Inharmonicity较小,人声Inharmonicity较大。Inharmonicity计算公式如下:
其中,f0表示基频,fhi表示基于f0估计出的谐波分量,Xhi表示第i个谐波的频谱幅度值。
步骤S304,对预先定义的训练数据进行聚类分析和模型训练,构建出判别模型。
根据本申请,预先设置音频数据的两个数据集,包括:歌唱人声区和纯音乐区(可以使用Praat软件设置完成)。例如,人声区数据集包含流行、电子、乡村、R&B、说唱、爵士、摇滚等,男女歌手各占一半,总共50首歌曲。纯音乐歌曲集包含前50首的非人声区部分,再加上钢琴、笛子、吉他、二胡、鼓、电子琴等40首独奏。将每个类别数据集各取一半用于训练和测试。
训练样本集不可避免存在一些噪音数据,使用VQ聚类可以比较好的解决上述两个问题,抽取出有代表性的主体训练数据,减小噪音数据的影响。
假定有N帧特征数据,记作:{X1,X2,...XN},聚成M类。
第一步,确定初始类别的中心:将N帧数据均分成M等份,计算每一等分的均值,作为每个类别的初始中心,记作:{Y1,Y2,…,YM}。
第二步,用类别的中心值,根据最佳化原则构成M个胞腔,记作:
第三步,计算平均失真与相对失真。
平均失真的计算公式为:
相对失真的计算公式为:
若则计算停止,否则进行第四步。
第四步,计算这时划分的各胞腔的形心,标记这M个新形心为n=n+1,返回第二步再进行计算,直到
最后,找出各个胞腔内所含的数据,筛选出有代表性数据。本申请中对每个音频文件的特征集合聚成两个类别,根据两个胞腔所含样本数对比,选择最大胞腔离中心最近的一批数据,完成训练数据的筛选工作。
步骤S306,根据所述判别模型对所述特征数据进行分类,从而判定所述数据帧为人声帧或非人声帧。
其中,训练过程包括:对训练的两类数据进行SVM模型训练,其基本原理是利用核函数(例如RBF核函数)将低维空间的点映射到高维空间中,使原来在低维空间不可分的点,在高维空间中变得线性可分。找出两类样本点的曲线边界,根据间隔最大化原则,找出最佳的分类面,而落在边界上的样本点称之为支持向量。
支持向量机(SVM)是一种分类算法,通过寻找结构风险最小来提高学习机的泛化能力,实现经验风险和置信范围的最小化,从而达到在样本量较少的情况下,也能获得良好的统计规律。本申请使用核函数(例如RBF(RadialBasis Function,径向基函数))进行高维映射,找出最佳的分类超平面。判别过程包括:使用构建好的模型,对特征数据进行高维映射,计算与最佳的分类超平面之间的间隔,判别所述数据帧是人声帧还是非人声帧。
由于现实样本中,始终有一些噪声点,无法将两类样本点完全可分,损失函数中引入松弛变量,允许存在少量不可分的点,对这些点引入惩罚因子,目标是使得损失函数最小化,解析求得能使两类可分的最佳超平面。
在本申请的一个实施例中,由于人声与音乐片段都具有一定的延续性,不会在人声片段中出现少许的音乐帧,或者在音乐片段中出现少许的人声帧,也就是说不会出现一些跳变的帧。本申请通过后期均值平滑处理,滤除数据帧中的干扰帧。
假定分类结果,人声标记为1,音乐标记为0。则:
raw(j)表示第j帧的原始判别结果值,L表示偏移量,可以取值20。
Result(i)表示第i帧的最终判别结果值。
将帧序列判定结果进行均值平滑处理后,根据预设的人声区长度限制阈值定位所述音频信号的人声区。也就是说,如果多个连续的人声帧的长度超过长度限制阈值,则认为该多个连续的人声帧为人声区。
根据本申请实施例,还提供一种定位音乐人声区的系统。
图5是根据本申请一个实施例的定位音乐人声区的系统的结构框图,如图5所示,所述定位音乐人声区的系统包括:分帧模块10、静音检测模块20、谐波检测模块30、人声分类检测模块40和人声区定位模块50,其中:
分帧模块10,用于将音频信号进行分帧处理得到多个数据帧;
静音检测模块20,用于分别对每一个数据帧进行静音检测判断是否为静音帧,如果是则判定该数据帧为非人声帧,否则对所述数据帧执行所述谐波检测模块。具体地,若max(abs(xn(m)))<threshold,且mean(abs(xn(m)))<1/3*threshold,则判定该帧为静音帧;其中,xn(m)为第n帧的第m个样本点,1<m<fs*tms,fs为取样频率,tms为帧长,max(.)表示取最大值,abs(.)表示取绝对值,mean(.)表示取平均值,threshold为阈值。
谐波检测模块30,用于判断所述数据帧是否为非谐波帧,如果是则判定所述数据帧为非人声帧,否则执行所述人声分类检测模块。具体地,若max_value=max(Rn(k)),max_value>=0.3,且则对所述数据帧进行人声分类检测,否则判定所述数据帧为非人声帧;其中,Nvoice表示Rn(k)大于或等于0.3的个数,Nunvoice表示Rn(k)小于0.3的个数,Rn(k)为第n帧自相关第k个点的值,xn(m)为第n帧的第m个样本点,N为帧长,lag为偏移量。
人声分类检测模块40,用于对所述数据帧进行人声分类检测判定所述数据帧是否为人声帧。进一步,所述人声分类检测模块包括:特征提取模块,用于根据预先设置的特征集合提取所述数据帧的特征数据;聚类处理模块,用于对预先定义的训练数据进行聚类分析和模型训练,构建出判别模型;分类器判别模块,用于根据所述判别模型对所述特征数据进行分类,从而判定所述数据帧为人声帧或非人声帧。其中,所述特征集合包括:梅尔倒谱系数及其一阶差分系数和二阶差分系数、线性预测倒谱系数、频谱的质心、频谱的平滑度、频谱的衰减度、频谱的局部变化量、过零率、频谱的谐波失真度。
人声区定位模块50,用于将多个数据帧的判定结果合并为帧序列判定结果,并根据所述帧序列判定结果定位所述音频信号的人声区。具体地,所述人声区定位模块对所述帧序列判定结果进行均值平滑处理,并根据预设的人声区长度限制阈值定位所述音频信号的人声区。
本申请的方法的操作步骤与系统的结构特征对应,可以相互参照,不再一一赘述。
综上所述,本申请的技术方案具有以下效果:
(1)可以用于标记歌声的起点。
(2)可以用于纯乐器与带人声音乐标签分类。
(3)可以用于自动纠正歌词时间点的错位问题,梳理歌词资源,大量节省了人力和物力。
(4)此外,可以用来辅助筛选副歌部分(副歌部分包含人声区域),辅助用于哼唱搜索的主旋律提取(主旋律提取一般针对人声区)。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (12)
1.一种定位音乐人声区的方法,其特征在于,包括:
将音频信号进行分帧处理得到多个数据帧;
分别对每一个数据帧进行静音检测判断是否为静音帧,如果是则判定该数据帧为非人声帧,否则对所述数据帧进行谐波检测;
判断所述数据帧是否为非谐波帧,如果是则判定所述数据帧为非人声帧,否则对所述数据帧进行人声分类检测判定所述数据帧是否为人声帧;
将多个数据帧的判定结果合并为帧序列判定结果,并根据所述帧序列判定结果定位所述音频信号的人声区。
2.根据权利要求1所述的方法,其特征在于,对所述数据帧进行静音检测判断是否为静音帧包括:
若max(abs(xn(m)))<threshold,且mean(abs(xn(m)))<1/3*threshold,则判定该帧为静音帧;
其中,xn(m)表示第n帧的第m个样本点,1<m<fs*tms,fs表示取样频率,tms表示帧长,max(.)表示取最大值,abs(.)表示取绝对值,mean(.)表示取平均值,threshold表示阈值。
3.根据权利要求1所述的方法,其特征在于,对所述数据帧进行谐波检测包括:
若max_value=max(Rn(k)),max_value>=0.3,且则对所述数据帧进行人声分类检测,否则判定所述数据帧为非人声帧;
其中,Nvoice表示Rn(k)大于或等于0.3的个数,Nunvoice表示Rn(k)小于0.3的个数,Rn(k)表示第n帧自相关第k个点的值,xn(m)表示第n帧的第m个样本点,N表示帧长,lag表示偏移量。
4.根据权利要求1所述的方法,其特征在于,对所述数据帧进行人声分类检测判定所述数据帧是否为人声帧包括:
根据预先设置的特征集合提取所述数据帧的特征数据;
对预先定义的训练数据进行聚类分析和模型训练,构建出判别模型;
根据所述判别模型对所述特征数据进行分类,从而判定所述数据帧为人声帧或非人声帧。
5.根据权利要求4所述的方法,其特征在于,所述特征集合包括:
梅尔倒谱系数及其一阶差分系数和二阶差分系数、线性预测倒谱系数、频谱的质心、频谱的平滑度、频谱的衰减度、频谱的局部变化量、过零率、频谱的谐波失真度。
6.根据权利要求1所述的方法,其特征在于,所述根据所述帧序列判定结果定位所述音频信号的人声区包括:
对所述帧序列判定结果进行均值平滑处理,并根据预设的人声区长度限制阈值定位所述音频信号的人声区。
7.一种定位音乐人声区的系统,其特征在于,包括:分帧模块、静音检测模块、谐波检测模块、人声分类检测模块和人声区定位模块,其中,
所述分帧模块,用于将音频信号进行分帧处理得到多个数据帧;
所述静音检测模块,用于分别对每一个数据帧进行静音检测判断是否为静音帧,如果是则判定该数据帧为非人声帧,否则对所述数据帧执行所述谐波检测模块;
所述谐波检测模块,用于判断所述数据帧是否为非谐波帧,如果是则判定所述数据帧为非人声帧,否则执行所述人声分类检测模块;
所述人声分类检测模块,用于对所述数据帧进行人声分类检测判定所述数据帧是否为人声帧;
所述人声区定位模块,用于将多个数据帧的判定结果合并为帧序列判定结果,并根据所述帧序列判定结果定位所述音频信号的人声区。
8.根据权利要求7所述的系统,其特征在于,所述静音检测模块用于:
若max(abs(xn(m)))<threshold,且mean(abs(xn(m)))<1/3*threshold,则判定该帧为静音帧;
其中,xn(m)表示第n帧的第m个样本点,1<m<fs*tms,fs表示取样频率,tms表示帧长,max(.)表示取最大值,abs(.)表示取绝对值,mean(.)表示取平均值,threshold表示阈值。
9.根据权利要求7所述的系统,其特征在于,所述谐波检测模块用于:
若max_value=max(Rn(k)),max_value>=0.3,且则对所述数据帧进行人声分类检测,否则判定所述数据帧为非人声帧;
其中,Nvoice表示Rn(k)大于或等于0.3的个数,Nunvoice表示Rn(k)小于0.3的个数,Rn(k)表示第n帧自相关第k个点的值,xn(m)表示第n帧的第m个样本点,N表示帧长,lag表示偏移量。
10.根据权利要求7所述的系统,其特征在于,所述人声分类检测模块包括:
特征提取模块,用于根据预先设置的特征集合提取所述数据帧的特征数据;
聚类处理模块,用于对预先定义的训练数据进行聚类分析和模型训练,构建出判别模型;
分类器判别模块,用于根据所述判别模型对所述特征数据进行分类,从而判定所述数据帧为人声帧或非人声帧。
11.根据权利要求10所述的系统,其特征在于,所述特征集合包括:
梅尔倒谱系数及其一阶差分系数和二阶差分系数、线性预测倒谱系数、频谱的质心、频谱的平滑度、频谱的衰减度、频谱的局部变化量、过零率、频谱的谐波失真度。
12.根据权利要求7所述的系统,其特征在于,所述人声区定位模块用于,对所述帧序列判定结果进行均值平滑处理,并根据预设的人声区长度限制阈值定位所述音频信号的人声区。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510657200.9A CN106571150B (zh) | 2015-10-12 | 2015-10-12 | 一种识别音乐中的人声的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510657200.9A CN106571150B (zh) | 2015-10-12 | 2015-10-12 | 一种识别音乐中的人声的方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106571150A true CN106571150A (zh) | 2017-04-19 |
CN106571150B CN106571150B (zh) | 2021-04-16 |
Family
ID=58508209
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510657200.9A Active CN106571150B (zh) | 2015-10-12 | 2015-10-12 | 一种识别音乐中的人声的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106571150B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107154264A (zh) * | 2017-05-18 | 2017-09-12 | 北京大生在线科技有限公司 | 在线教学精彩片段提取的方法 |
CN107886956A (zh) * | 2017-11-13 | 2018-04-06 | 广州酷狗计算机科技有限公司 | 音频识别方法、装置及计算机存储介质 |
CN108172241A (zh) * | 2017-12-27 | 2018-06-15 | 上海传英信息技术有限公司 | 一种基于智能终端的音乐推荐方法及音乐推荐系统 |
CN108538309A (zh) * | 2018-03-01 | 2018-09-14 | 杭州趣维科技有限公司 | 一种歌声侦测的方法 |
CN108877783A (zh) * | 2018-07-05 | 2018-11-23 | 腾讯音乐娱乐科技(深圳)有限公司 | 确定音频数据的音频类型的方法和装置 |
CN108986843A (zh) * | 2018-08-10 | 2018-12-11 | 杭州网易云音乐科技有限公司 | 音频数据处理方法及装置、介质和计算设备 |
CN109147818A (zh) * | 2018-10-30 | 2019-01-04 | Oppo广东移动通信有限公司 | 声学特征提取方法、装置、存储介质及终端设备 |
CN109410968A (zh) * | 2018-11-15 | 2019-03-01 | 电子科技大学 | 一种高效的歌曲中人声起始位置检测方法 |
CN109545191A (zh) * | 2018-11-15 | 2019-03-29 | 电子科技大学 | 一种歌曲中人声起始位置的实时检测方法 |
CN109658951A (zh) * | 2019-01-08 | 2019-04-19 | 北京雷石天地电子技术有限公司 | 混合信号检测方法及系统 |
CN111243618A (zh) * | 2018-11-28 | 2020-06-05 | 阿里巴巴集团控股有限公司 | 用于确定音频中的特定人声片段的方法、装置和电子设备 |
CN112037812A (zh) * | 2020-09-01 | 2020-12-04 | 深圳爱卓软科技有限公司 | 音频处理方法 |
Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5157215A (en) * | 1989-09-20 | 1992-10-20 | Casio Computer Co., Ltd. | Electronic musical instrument for modulating musical tone signal with voice |
CN1758331A (zh) * | 2005-10-31 | 2006-04-12 | 浙江大学 | 基于基音频率的快速音频分割方法 |
CN101452698A (zh) * | 2007-11-29 | 2009-06-10 | 中国科学院声学研究所 | 一种自动嗓音谐噪比分析方法 |
US20100017202A1 (en) * | 2008-07-09 | 2010-01-21 | Samsung Electronics Co., Ltd | Method and apparatus for determining coding mode |
CN101872616A (zh) * | 2009-04-22 | 2010-10-27 | 索尼株式会社 | 端点检测方法以及使用该方法的系统 |
CN102054480A (zh) * | 2009-10-29 | 2011-05-11 | 北京理工大学 | 一种基于分数阶傅立叶变换的单声道混叠语音分离方法 |
CN102446504A (zh) * | 2010-10-08 | 2012-05-09 | 华为技术有限公司 | 语音/音乐识别方法及装置 |
CN102543079A (zh) * | 2011-12-21 | 2012-07-04 | 南京大学 | 一种实时的音频信号分类方法及设备 |
CN102622353A (zh) * | 2011-01-27 | 2012-08-01 | 天脉聚源(北京)传媒科技有限公司 | 一种固定音频检索方法 |
US20130129097A1 (en) * | 2011-11-18 | 2013-05-23 | Samsung Electronics Co., Ltd. | Sound quality evaluation apparatus and method thereof |
CN103489445A (zh) * | 2013-09-18 | 2014-01-01 | 百度在线网络技术(北京)有限公司 | 一种识别音频中人声的方法及装置 |
CN103650040A (zh) * | 2011-05-16 | 2014-03-19 | 谷歌公司 | 使用多特征建模分析语音/噪声可能性的噪声抑制方法和装置 |
CN103839544A (zh) * | 2012-11-27 | 2014-06-04 | 展讯通信(上海)有限公司 | 语音激活检测方法和装置 |
CN104078051A (zh) * | 2013-03-29 | 2014-10-01 | 中兴通讯股份有限公司 | 一种人声提取方法、系统以及人声音频播放方法及装置 |
CN104091603A (zh) * | 2014-05-23 | 2014-10-08 | 普强信息技术(北京)有限公司 | 基于基频的端点检测系统及其计算方法 |
US20150012273A1 (en) * | 2009-09-23 | 2015-01-08 | University Of Maryland, College Park | Systems and methods for multiple pitch tracking |
CN104347067A (zh) * | 2013-08-06 | 2015-02-11 | 华为技术有限公司 | 一种音频信号分类方法和装置 |
CN104616663A (zh) * | 2014-11-25 | 2015-05-13 | 重庆邮电大学 | 一种结合hpss的mfcc-多反复模型的音乐分离方法 |
-
2015
- 2015-10-12 CN CN201510657200.9A patent/CN106571150B/zh active Active
Patent Citations (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5157215A (en) * | 1989-09-20 | 1992-10-20 | Casio Computer Co., Ltd. | Electronic musical instrument for modulating musical tone signal with voice |
CN1758331A (zh) * | 2005-10-31 | 2006-04-12 | 浙江大学 | 基于基音频率的快速音频分割方法 |
CN101452698A (zh) * | 2007-11-29 | 2009-06-10 | 中国科学院声学研究所 | 一种自动嗓音谐噪比分析方法 |
US20100017202A1 (en) * | 2008-07-09 | 2010-01-21 | Samsung Electronics Co., Ltd | Method and apparatus for determining coding mode |
CN101872616A (zh) * | 2009-04-22 | 2010-10-27 | 索尼株式会社 | 端点检测方法以及使用该方法的系统 |
US20150012273A1 (en) * | 2009-09-23 | 2015-01-08 | University Of Maryland, College Park | Systems and methods for multiple pitch tracking |
CN102054480A (zh) * | 2009-10-29 | 2011-05-11 | 北京理工大学 | 一种基于分数阶傅立叶变换的单声道混叠语音分离方法 |
CN102446504A (zh) * | 2010-10-08 | 2012-05-09 | 华为技术有限公司 | 语音/音乐识别方法及装置 |
CN102622353A (zh) * | 2011-01-27 | 2012-08-01 | 天脉聚源(北京)传媒科技有限公司 | 一种固定音频检索方法 |
CN103650040A (zh) * | 2011-05-16 | 2014-03-19 | 谷歌公司 | 使用多特征建模分析语音/噪声可能性的噪声抑制方法和装置 |
US20130129097A1 (en) * | 2011-11-18 | 2013-05-23 | Samsung Electronics Co., Ltd. | Sound quality evaluation apparatus and method thereof |
CN102543079A (zh) * | 2011-12-21 | 2012-07-04 | 南京大学 | 一种实时的音频信号分类方法及设备 |
CN103839544A (zh) * | 2012-11-27 | 2014-06-04 | 展讯通信(上海)有限公司 | 语音激活检测方法和装置 |
CN104078051A (zh) * | 2013-03-29 | 2014-10-01 | 中兴通讯股份有限公司 | 一种人声提取方法、系统以及人声音频播放方法及装置 |
CN104347067A (zh) * | 2013-08-06 | 2015-02-11 | 华为技术有限公司 | 一种音频信号分类方法和装置 |
CN103489445A (zh) * | 2013-09-18 | 2014-01-01 | 百度在线网络技术(北京)有限公司 | 一种识别音频中人声的方法及装置 |
CN104091603A (zh) * | 2014-05-23 | 2014-10-08 | 普强信息技术(北京)有限公司 | 基于基频的端点检测系统及其计算方法 |
CN104616663A (zh) * | 2014-11-25 | 2015-05-13 | 重庆邮电大学 | 一种结合hpss的mfcc-多反复模型的音乐分离方法 |
Non-Patent Citations (1)
Title |
---|
刘永志 等: "《MIDI技术应用研究》", 31 December 2014, 合肥工业大学出版社 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107154264A (zh) * | 2017-05-18 | 2017-09-12 | 北京大生在线科技有限公司 | 在线教学精彩片段提取的方法 |
CN107886956A (zh) * | 2017-11-13 | 2018-04-06 | 广州酷狗计算机科技有限公司 | 音频识别方法、装置及计算机存储介质 |
CN108172241B (zh) * | 2017-12-27 | 2020-11-17 | 上海传英信息技术有限公司 | 一种基于智能终端的音乐推荐方法及音乐推荐系统 |
CN108172241A (zh) * | 2017-12-27 | 2018-06-15 | 上海传英信息技术有限公司 | 一种基于智能终端的音乐推荐方法及音乐推荐系统 |
CN108538309A (zh) * | 2018-03-01 | 2018-09-14 | 杭州趣维科技有限公司 | 一种歌声侦测的方法 |
CN108538309B (zh) * | 2018-03-01 | 2021-09-21 | 杭州小影创新科技股份有限公司 | 一种歌声侦测的方法 |
CN108877783A (zh) * | 2018-07-05 | 2018-11-23 | 腾讯音乐娱乐科技(深圳)有限公司 | 确定音频数据的音频类型的方法和装置 |
CN108986843A (zh) * | 2018-08-10 | 2018-12-11 | 杭州网易云音乐科技有限公司 | 音频数据处理方法及装置、介质和计算设备 |
CN109147818A (zh) * | 2018-10-30 | 2019-01-04 | Oppo广东移动通信有限公司 | 声学特征提取方法、装置、存储介质及终端设备 |
CN109545191A (zh) * | 2018-11-15 | 2019-03-29 | 电子科技大学 | 一种歌曲中人声起始位置的实时检测方法 |
CN109410968A (zh) * | 2018-11-15 | 2019-03-01 | 电子科技大学 | 一种高效的歌曲中人声起始位置检测方法 |
CN109545191B (zh) * | 2018-11-15 | 2022-11-25 | 电子科技大学 | 一种歌曲中人声起始位置的实时检测方法 |
CN109410968B (zh) * | 2018-11-15 | 2022-12-09 | 电子科技大学 | 一种高效的歌曲中人声起始位置检测方法 |
CN111243618A (zh) * | 2018-11-28 | 2020-06-05 | 阿里巴巴集团控股有限公司 | 用于确定音频中的特定人声片段的方法、装置和电子设备 |
CN111243618B (zh) * | 2018-11-28 | 2024-03-19 | 阿里巴巴集团控股有限公司 | 用于确定音频中的特定人声片段的方法、装置和电子设备 |
CN109658951A (zh) * | 2019-01-08 | 2019-04-19 | 北京雷石天地电子技术有限公司 | 混合信号检测方法及系统 |
CN112037812A (zh) * | 2020-09-01 | 2020-12-04 | 深圳爱卓软科技有限公司 | 音频处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106571150B (zh) | 2021-04-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106571150A (zh) | 定位音乐人声区的方法和系统 | |
Rocamora et al. | Comparing audio descriptors for singing voice detection in music audio files | |
Rigaud et al. | Singing Voice Melody Transcription Using Deep Neural Networks. | |
Wu et al. | Polyphonic music transcription with semantic segmentation | |
US20050211071A1 (en) | Automatic music mood detection | |
Lagrange et al. | Normalized cuts for predominant melodic source separation | |
Benetos et al. | Joint multi-pitch detection using harmonic envelope estimation for polyphonic music transcription | |
Lehner et al. | Towards Light-Weight, Real-Time-Capable Singing Voice Detection. | |
CN112037764B (zh) | 一种音乐结构的确定方法、装置、设备及介质 | |
Velankar et al. | Melodic pattern recognition in Indian classical music for raga identification | |
Bergstra et al. | Scalable Genre and Tag Prediction with Spectral Covariance. | |
Shirazi et al. | Improvement to speech-music discrimination using sinusoidal model based features | |
Krey et al. | Music and timbre segmentation by recursive constrained K-means clustering | |
Nagavi et al. | Overview of automatic Indian music information recognition, classification and retrieval systems | |
WO2019053544A1 (en) | IDENTIFICATION OF AUDIOS COMPONENTS IN AN AUDIO MIX | |
Sarkar et al. | Raga identification from Hindustani classical music signal using compositional properties | |
Van et al. | Deep learning approach for singer voice classification of Vietnamese popular music | |
Pikrakis et al. | Unsupervised singing voice detection using dictionary learning | |
KR20100000265A (ko) | 특징 벡터 선택 방법 및 장치, 그리고 이를 이용한 음악장르 분류 방법 및 장치 | |
Pandey et al. | Combination of k-means clustering and support vector machine for instrument detection | |
Chaudhary et al. | Feature selection and classification of indian musical string instruments using svm | |
Loh et al. | ELM for the Classification of Music Genres | |
CN115662465A (zh) | 一种适用于民族弦乐乐器的声音识别算法及装置 | |
Pohle | Extraction of audio descriptors and their evaluation in music classification tasks | |
Vatolkin et al. | Comparison of Audio Features for Recognition of Western and Ethnic Instruments in Polyphonic Mixtures. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20211102 Address after: Room 801, 8th floor, building 9, zone 4, Wangjing Dongyuan, Chaoyang District, Beijing Patentee after: Beijing Alibaba Music Technology Co.,Ltd. Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands Patentee before: ALIBABA GROUP HOLDING Ltd. |