CN108595648B - 音乐主旋律提取系统 - Google Patents

音乐主旋律提取系统 Download PDF

Info

Publication number
CN108595648B
CN108595648B CN201810390420.3A CN201810390420A CN108595648B CN 108595648 B CN108595648 B CN 108595648B CN 201810390420 A CN201810390420 A CN 201810390420A CN 108595648 B CN108595648 B CN 108595648B
Authority
CN
China
Prior art keywords
pitch
melody
frame
main melody
estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810390420.3A
Other languages
English (en)
Other versions
CN108595648A (zh
Inventor
张维维
陈喆
殷福亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Minzu University
Original Assignee
Dalian Minzu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Minzu University filed Critical Dalian Minzu University
Priority to CN201810390420.3A priority Critical patent/CN108595648B/zh
Publication of CN108595648A publication Critical patent/CN108595648A/zh
Application granted granted Critical
Publication of CN108595648B publication Critical patent/CN108595648B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Auxiliary Devices For Music (AREA)

Abstract

音乐主旋律提取系统,属于音乐信息检索领域,为了解决主旋律提取方法中提高音高估计准确性的问题,要点是存储有多条指令,所述指令适于处理器加载并执行:计算音乐信号的常Q变换;计算基于粒子滤波的主旋律音高序列的粗略估计;计算主旋律音高序列平滑估计序列;计算最终主旋律音高序列估计,效果是提高了旋律提取准确性。

Description

音乐主旋律提取系统
技术领域
本发明属于音乐信息检索领域,涉及一种音乐主旋律提取系统。
背景技术
音乐信息检索领域中的主旋律提取即从音乐信号中估计出主旋律音高序列,其主要依据是音乐中主旋律成分的显著性和时序连续性。传统的主旋律提取方法大多把主旋律提取问题分解成多音高估计和旋律轮廓构建两个子问题,导致无法同时兼顾两个特性,在多音高估计阶段没有考虑到连续帧音高的高度相关性。Jo等提出采用贝叶斯滤波框架建模主旋律提取问题,并借助粒子滤波方法估计参数,但该方法在粒子滤波之前仍然需要进行多音高估计,且具有较多的参数需要估计(S.Jo,C.D.Yoo,and A.Doucet,Melody trackingbased on sequential Bayesian model,IEEE Journal of Selected Topics in SignalProcessing,2011,5(6):1216–1227.)。
此外,音乐信号非常复杂,具有典型非平稳性的本质特点,即某些短时强伴奏音功率可能超过主旋律成分,且主旋律音高频率分布较广,包含几个八度范围,导致现有方案在主旋律提取中来自于伴奏音的错误音高和八度误差广泛存在。
发明内容
为了解决主旋律提取方法中提高音高估计准确性的问题,本发明提出如下方案:
为了解决降低短时强伴奏的影响及八度误差的问题,本发明提出如下方案:
一种音乐主旋律提取系统,存储有多条指令,所述指令适于处理器加载并执行:
计算音乐信号的常Q变换;
计算基于粒子滤波的主旋律音高序列的粗略估计;
计算主旋律音高序列平滑估计序列;
计算最终主旋律音高序列估计。
作为技术方案的补充,计算音乐信号的常Q变换基于如下方式实现:对非平稳的音乐信号进行分帧,然后利用常Q变换计算按照对数分布的各频率点的幅度值,每八度范围具有36个按对数分布的频率点。
作为技术方案的补充,计算基于粒子滤波的主旋律音高序列的粗略估计基于如下方式实现:
初始化:
Figure BDA0001643315090000021
其中
Figure BDA0001643315090000022
表示第i个粒子的初始音高
Figure BDA0001643315090000023
服从[110Hz,1200Hz]范围内均匀分布,Np为粒子数,
Figure BDA0001643315090000024
表示第i个粒子权重;
迭代求解:
(1)按转移概率,预测第t帧旋律音高频率:
Figure BDA0001643315090000025
根据实际音乐中音高转移概率统计分析结果,将音高转移概率建模为logistic分布,其概率密度函数为:
Figure BDA0001643315090000031
其中x=f0,t/f0,t-1,f0,t为第t帧旋律音高频率,且μ=1.00003,s=0.0055045。
(2)计算粒子权重
Figure BDA0001643315090000032
Figure BDA0001643315090000033
其中P和S分别代表了第t帧第i个粒子的功率和谐波平滑性因子,分别定义为:
Figure BDA0001643315090000034
Figure BDA0001643315090000035
其中Am,t为第t帧第i个粒子音高频率f0,t所对应的第m次谐波分量的幅度,H为最大谐波次数;
(3)归一化粒子权重
Figure BDA0001643315090000036
Figure BDA0001643315090000037
(4)计算有效粒子数量
Figure BDA0001643315090000038
Figure BDA0001643315090000039
Figure BDA00016433150900000310
重新初始化粒子音高
Figure BDA00016433150900000311
跳到步骤(1);否则,跳到(5),其中fmin和fmax分别是主旋律音高的频率下限和上限;
(5)计算当前旋律音高估计
Figure BDA00016433150900000312
Figure BDA00016433150900000313
其中
Figure BDA0001643315090000041
是权值最大的各粒子音高频率的平均值;
(6)对粒子按照归一化权重进行重采样,并将所有重采样后的粒子权重都置为1/Np
(7)令t=t+1,若t≤Nfrm(Nfrm为音频的总帧数),跳到步骤(1);否则,结束迭代过程;
结束(1)-(7)的步骤后,由
Figure BDA0001643315090000042
构成主旋律音高序列粗略估计。
作为技术方案的补充,其特征在于,Np=300。
计算主旋律音高序列平滑估计序列基于如下方式实现:对前后100毫秒时间内的主旋律音高序列粗略估计结果取平均,作为当前帧的主旋律音高序列平滑估计值,各个帧的平滑估计值构成主旋律音高序列平滑估计序列。
作为技术方案的补充,计算最终主旋律音高序列估计基于如下方式实现:
(1)将每帧主旋律音高序列平滑估计值的上下八度范围作为该帧的主旋律音高的搜索范围;
(2)计算每帧主旋律音高搜索范围内每个频率点的显著度值St′(f):
Figure BDA0001643315090000043
其中Nh=10是最大谐波次数,|Xt(hf)|为频率f的第h次谐波幅度;
(3)对每帧的St′(f)进行归一化,得到St(f):
Figure BDA0001643315090000051
(4)利用动态规划算法得到最终的主旋律音高序列值,动态规划的初始条件为:
D(1,ft,j)=S1(fj) (11)
其中D(t,ft,j)是第t帧取ft,j作为旋律音高的累积代价函数,S1(fj)由公式(10)得到,是第1帧的显著度函数在第j个频点的取值,则求解主旋律音高序列最优解的递归公式为:
D(t,ft,j)=St(fj)+max{D(t-1,ft-1,k)-λd(ft-1,k,ft,j)},t=1,...,Nfrm (12)
其中ft,j为第t帧主旋律音高的可能值,ft-1,k为第t-1帧主旋律音高估计值,d(ft-1,k,ft,j)为ft-1,k和ft,j的半音差,λ为惩罚因子;
不断迭代公式(12)得到最终主旋律音高序列估计。
作为技术方案的补充,λ=0.05。
本发明将旋律的显著性和平滑性融合到粒子滤波框架中,显著性通过粒子滤波中似然函数的各次谐波幅度平方和方式体现,而平滑性则在粒子滤波中将转移概率拟合成logistic分布的方式实现,这样该框架同时完成多音高估计和旋律轮廓构建,实现了显著性和平滑性兼顾。
本发明采用粒子滤波得到主旋律音高序列的粗略估计,然后将其作平滑处理,用以限定动态规划的主旋律音高搜索范围,再由动态规划在限定的范围内获得最终主旋律音高序列估计,降低了搜索范围外的强伴奏影响;本发明在动态规划阶段引入惩罚因子进一步减少了短时强伴奏的影响。
本发明在粒子滤波的似然函数中,引入谐波平滑性因子降低了八度误差;本发明的动态规划阶段在主旋律音高搜索范围内将每个频率点的显著度值定义为各次谐波分量幅度的加权和,进一步降低了八度误差。
具体实施方式
本公开涉及一种音乐主旋律提取方法,用于解决传统主旋律提取方法无法兼顾显著性和时序连续性的问题,同时用于降低音乐信号非平稳性导致的自于伴奏音的错误音高和八度误差。
其方案如下:在粒子滤波框架下,随机掷粒子,将粒子滤波的似然函数建模为各次谐波幅度平方和与谐波平滑性因子的乘积,用logistic分布拟合转移概率函数,由粒子滤波的预测和更新方程逐帧递归完成主旋律音高序列粗略估计,然后对其进行平滑处理,取平滑处理后的每帧音高的上、下八度范围作为该帧的主旋律音高的搜索范围,并于被限定的范围内执行动态规划算法以得到最终主旋律音高序列估计。
该方法将显著性和时序连续性融合到同一框架中;采用粒子滤波和动态规划相结合的两阶段方案,限定最终主旋律音高序列的可能范围,降低了主旋律音高估计中的短时强伴奏音影响;采用粒子滤波中的谐波平滑性因子和动态规划中加权求和的显著度函数,减少了主旋律音高估计中的八度误差。
该方法具体包括如下步骤:
S1、计算音乐信号的常Q变换;
计算音乐音频信号的常Q变换方法:对非平稳的音乐信号进行分帧,然后利用常Q变换计算按照对数分布的各频率点的幅度值,每八度范围具有36个按对数分布的频率点。
S2、获得基于粒子滤波的主旋律音高序列的粗略估计;
获得基于粒子滤波的主旋律音高序列粗略估计的方法:
初始化:
Figure BDA0001643315090000071
其中
Figure BDA0001643315090000072
表示第i个粒子的初始音高
Figure BDA0001643315090000073
服从[110Hz,1200Hz]范围内均匀分布,Np=300为粒子数,
Figure BDA0001643315090000074
表示第i个粒子权重。
迭代求解:
(1)按转移概率,预测第t帧旋律音高频率:
Figure BDA0001643315090000075
根据实际音乐中音高转移概率统计分析结果,将音高转移概率建模为logistic分布,其概率密度函数为:
Figure BDA0001643315090000076
其中x=f0,t/f0,t-1,f0,t为第t帧旋律音高频率,且μ=1.00003,s=0.0055045。
(2)计算粒子权重
Figure BDA0001643315090000077
Figure BDA0001643315090000078
其中P和S分别代表了第t帧第i个粒子的功率和谐波平滑性因子,分别定义为:
Figure BDA0001643315090000079
Figure BDA00016433150900000710
其中Am,t为第t帧第i个粒子音高频率f0,t所对应的第m次谐波分量的幅度,H为最大谐波次数。
(3)归一化粒子权重
Figure BDA0001643315090000081
Figure BDA0001643315090000082
(4)计算有效粒子数量
Figure BDA0001643315090000083
Figure BDA0001643315090000084
Figure BDA0001643315090000085
重新初始化粒子音高
Figure BDA0001643315090000086
跳到步骤(1);否则,跳到步骤(5),其中fmin和fmax分别是主旋律音高的频率下限和上限。
(5)计算当前旋律音高估计
Figure BDA0001643315090000087
Figure BDA0001643315090000088
其中
Figure BDA0001643315090000089
是权值最大的各粒子音高频率的平均值。
(6)对粒子按照归一化权重进行重采样,并将所有重采样后的粒子权重都置为1/Np
(7)令t=t+1,若t≤Nfrm(Nfrm为音频的总帧数),跳到步骤(1);否则,结束迭代过程。
结束(1)-(7)的步骤后,由
Figure BDA00016433150900000810
构成主旋律音高序列粗略估计。
S3、获得主旋律音高序列平滑估计序列;
获得主旋律音高序列平滑估计序列的方法:对前后100毫秒时间内的主旋律音高序列粗略估计结果取平均,作为当前帧的主旋律音高序列平滑估计值,各个帧的平滑估计值构成主旋律音高序列平滑估计序列。
S4、获得最终主旋律音高序列估计;
获得最终主旋律音高序列估计的方法:
(1)将每帧主旋律音高序列平滑估计值的上下八度范围作为该帧的主旋律音高的搜索范围。
(2)计算每帧主旋律音高搜索范围内每个频率点的显著度值St′(f):
Figure BDA0001643315090000091
其中Nh=10是最大谐波次数,|Xt(hf)|为频率f的第h次谐波幅度。
(3)对每帧的St′(f)进行归一化,得到St(f):
Figure BDA0001643315090000092
(4)利用动态规划算法得到最终的主旋律音高序列值,动态规划的初始条件为:
D(1,ft,j)=S1(fj) (11)
其中D(t,ft,j)是第t帧取ft,j作为旋律音高的累积代价函数,S1(fj)由公式(10)得到,是第1帧的显著度函数在第j个频点的取值。则求解主旋律音高序列最优解的递归公式为:
D(t,ft,j)=St(fj)+max{D(t-1,ft-1,k)-λd(ft-1,k,ft,j)},t=1,...,Nfrm (12)
其中ft,j为第t帧主旋律音高的可能值,ft-1,k为第t-1帧主旋律音高估计值,d(ft-1,k,ft,j)为ft-1,k和ft,j的半音差,λ=0.05为惩罚因子。其中,ft,j、ft-1,k中的j、k使用不同的符号表示,是由于在迭代到第t帧时,第t-1帧主旋律音高估计值ft-1,k已经得到并为确定值,而第t帧主旋律音高的可能值ft,j还没确定,因而以示区别。
不断迭代公式(12)得到最终主旋律音高序列估计。
本发明将旋律的显著性和平滑性融合到粒子滤波框架中,显著性通过粒子滤波中似然函数的各次谐波幅度平方和方式体现,而平滑性则在粒子滤波中将转移概率拟合成logistic分布的方式实现,这样该框架同时完成多音高估计和旋律轮廓构建。为了减少短时强伴奏影响,本发明通过两个途径解决:(1)采用粒子滤波得到主旋律音高序列的粗略估计,然后将其作平滑处理,用以限定动态规划的主旋律音高搜索范围,再由动态规划在限定的范围内获得最终主旋律音高序列估计,降低了搜索范围外的强伴奏影响;(2)在动态规划阶段引入惩罚因子进一步减少短时强伴奏的影响。为了减少八度误差,本发明通过两个方式解决:(1)在粒子滤波的似然函数中,引入谐波平滑性因子降低八度误差;(2)动态规划阶段在主旋律音高搜索范围内将每个频率点的显著度值定义为各次谐波分量幅度的加权和,进一步降低八度误差。因此,本发明既将显著性和平滑性同时融合到了粒子滤波这一框架中,又降低了短时强伴奏的影响和八度误差。
也即由上述方案,本实施例所述方案具有如下有益效果:将显著性和平滑性融合到粒子滤波框架中,可同时完成多音高估计和旋律轮廓构建;通过粒子滤波和动态规划相结合的方案完成最终的主旋律音高序列估计,并在动态规划中限定主旋律音高搜索范围,还引入惩罚因子,降低了短时强伴奏的影响;通过在粒子滤波中引入谐波平滑性因子和动态规划中加权求和的显著度函数减少了主旋律音高估计中的八度误差。
本实施例所述的音乐主旋律提取方法,其与本公开背景技术中述及的Jo等公开的方案相比较,区别如下:
1.本发明方法和Jo等的方法的似然函数和转移概率密度都不一样,具有不同的音高显著度描述方法和转移概率密度表达式,尤其是概率密度,本发明的方法是在实际音乐音频的基础上作统计分析,将音高转移概率拟合为logistic分布,而Jo等的方法是用常规的高斯密度拟合转移概率;本方法还在似然函数中引入了谐波平滑性因子用以减少八度误差;
2.Jo等的方法先用多音高估计得到各帧的主旋律音高候选,然后采用粒子滤波的方法得到最终的主旋律音高序列。在某些主旋律音符结尾部分,功率可能小于某些强伴奏的场合,Jo等的方法仍无法排除这些错误音高,准确性较差;
3.两个方法的流程不同,本发明的方法是先粒子滤波再动态规划,Jo等的方法是先多音高估计再粒子滤波;
4.本方法具有较少的参数,参数调整容易;而Jo等的方法具有较多的参数,调整困难。
由上述,音乐具有很强的非平稳特性,强伴奏音可能在某些短时间内超过主旋律功率,比如,在某些音符结尾部分,可能主旋律功率小于有些伴奏;此外,八度误差也经常存在,在某个音符演奏过程中,估计音高会因为各次谐波幅度比例的变化而在不同的八度之间切换。因此,若能事先确定主旋律的大致范围,将能滤除范围外的伴奏音高和八度误差。
Jo等的方法先用多音高估计得到各帧的旋律音高候选,然后采用粒子滤波的方法得到最终的主旋律音高序列。该方法仍不能解决上述问题。本发明提出的方法首先用粒子滤波估计出旋律音高,同样也具有上述问题,但是粒子滤波方法估计的结果大部分都是准的,因此对估计序列作平滑处理就削弱了错误估计的影响,仍能确定旋律音高的大致范围,在被限制的范围内再利用动态规划作处理,就能滤除范围外的短时强伴奏音高和八度误差。
以上所述,仅为本发明创造较佳的具体实施方式,但本发明创造的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内,根据本发明创造的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明创造的保护范围之内。

Claims (4)

1.一种音乐主旋律提取系统,其特征在于,存储有多条指令,所述指令适于处理器加载并执行:
计算音乐信号的常Q变换;
计算基于粒子滤波的主旋律音高序列的粗略估计;
计算主旋律音高序列平滑估计序列:对前后100毫秒时间内的主旋律音高序列粗略估计结果取平均,作为当前帧的主旋律音高序列平滑估计值,各个帧的平滑估计值构成主旋律音高序列平滑估计序列;
计算最终主旋律音高序列估计:
(1)将每帧主旋律音高序列平滑估计值的上下八度范围作为该帧的主旋律音高的搜索范围;
(2)计算每帧主旋律音高搜索范围内每个频率点的显著度值S′t(f):
Figure FDA0003408652650000011
其中Nh=10是最大谐波次数,|Xt(hf)|为频率f的第h次谐波幅度;
(3)对每帧的S′t(f)进行归一化,得到St(f):
Figure FDA0003408652650000012
(4)利用动态规划算法得到最终的主旋律音高序列值,动态规划的初始条件为:
D(1,ft,j)=S1(fj) (11)
其中D(t,ft,j)是第t帧取ft,j作为旋律音高的累积代价函数,S1(fj)由公式(10)得到,是第1帧的显著度函数在第j个频点的取值;则求解主旋律音高序列最优解的递归公式为:
D(t,ft,j)=St(fj)+max{D(t-1,ft-1,k)-λd(ft-1,k,ft,j)},t=1,...,Nfrm (12)
其中ft,j为第t帧主旋律音高的可能值,ft-1,k为第t-1帧主旋律音高估计值,d(ft-1,k,ft,j)为ft-1,k和ft,j的半音差,λ=0.05为惩罚因子;其中,ft,j、ft-1,k中的j、k使用不同的符号表示,是由于在迭代到第t帧时,第t-1帧主旋律音高估计值ft-1,k已经得到并为确定值,而第t帧主旋律音高的可能值ft,j还没确定,因而以示区别;
不断迭代公式(12)得到最终主旋律音高序列估计。
2.如权利要求1所述的音乐主旋律提取系统,其特征在于,计算音乐信号的常Q变换基于如下方式实现:对非平稳的音乐信号进行分帧,然后利用常Q变换计算按照对数分布的各频率点的幅度值,每八度范围具有36个按对数分布的频率点。
3.如权利要求1所述的音乐主旋律提取系统,其特征在于,计算基于粒子滤波的主旋律音高序列的粗略估计基于如下方式实现:
初始化:
Figure FDA0003408652650000021
其中
Figure FDA0003408652650000022
表示第i个粒子的初始音高
Figure FDA0003408652650000023
服从[110Hz,1200Hz]范围内均匀分布,Np为粒子数,
Figure FDA0003408652650000024
表示第i个粒子权重;
迭代求解:
(1)按转移概率,预测第t帧旋律音高频率:
Figure FDA0003408652650000025
根据实际音乐中音高转移概率统计分析结果,将音高转移概率建模为logistic分布,其概率密度函数为:
Figure FDA0003408652650000031
其中x=f0,t/f0,t-1,f0,t为第t帧旋律音高频率,且μ=1.00003,s=0.0055045;
(2)计算粒子权重
Figure FDA0003408652650000032
Figure FDA0003408652650000033
其中P和S分别代表了第t帧第i个粒子的功率和谐波平滑性因子,分别定义为:
Figure FDA0003408652650000034
Figure FDA0003408652650000035
其中Am,t为第t帧第i个粒子音高频率f0,t所对应的第m次谐波分量的幅度,H为最大谐波次数;
(3)归一化粒子权重
Figure FDA0003408652650000036
Figure FDA0003408652650000037
(4)计算有效粒子数量
Figure FDA0003408652650000038
Figure FDA0003408652650000039
Figure FDA00034086526500000310
重新初始化粒子音高
Figure FDA00034086526500000311
跳到步骤(1);否则,跳到(5),其中fmin和fmax分别是主旋律音高的频率下限和上限;
(5)计算当前旋律音高估计
Figure FDA0003408652650000041
Figure FDA0003408652650000042
其中
Figure FDA0003408652650000043
是权值最大的各粒子音高频率的平均值;
(6)对粒子按照归一化权重进行重采样,并将所有重采样后的粒子权重都置为1/Np
(7)令t=t+1,若t≤Nfrm,跳到步骤(1);否则,结束迭代过程;Nfrm为音频的总帧数;
结束(1)-(7)的步骤后,由
Figure FDA0003408652650000044
构成主旋律音高序列粗略估计。
4.如权利要求3所述的音乐主旋律提取系统,其特征在于,Np=300。
CN201810390420.3A 2018-04-27 2018-04-27 音乐主旋律提取系统 Expired - Fee Related CN108595648B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810390420.3A CN108595648B (zh) 2018-04-27 2018-04-27 音乐主旋律提取系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810390420.3A CN108595648B (zh) 2018-04-27 2018-04-27 音乐主旋律提取系统

Publications (2)

Publication Number Publication Date
CN108595648A CN108595648A (zh) 2018-09-28
CN108595648B true CN108595648B (zh) 2022-03-04

Family

ID=63610617

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810390420.3A Expired - Fee Related CN108595648B (zh) 2018-04-27 2018-04-27 音乐主旋律提取系统

Country Status (1)

Country Link
CN (1) CN108595648B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112735365A (zh) * 2020-12-24 2021-04-30 重庆悦派对信息科技有限公司 一种基于概率模型的主旋律自动提取算法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1866763A (zh) * 2006-05-11 2006-11-22 上海交通大学 基于粒子滤波的信道估计方法
CN101256715A (zh) * 2008-03-05 2008-09-03 中科院嘉兴中心微系统所分中心 无线传感器网络中基于粒子滤波的多车辆声信号分离方法
CN107403222A (zh) * 2017-07-19 2017-11-28 燕山大学 一种基于辅助更新模型和有效性检验的运动跟踪方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1866763A (zh) * 2006-05-11 2006-11-22 上海交通大学 基于粒子滤波的信道估计方法
CN101256715A (zh) * 2008-03-05 2008-09-03 中科院嘉兴中心微系统所分中心 无线传感器网络中基于粒子滤波的多车辆声信号分离方法
CN107403222A (zh) * 2017-07-19 2017-11-28 燕山大学 一种基于辅助更新模型和有效性检验的运动跟踪方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Melody Extraction for Vocal Polyphonic Music Based on Bayesian Framework;liming song 等;《2014 Tenth International Conference on Intelligent Information Hiding and Multimedia Signal Processing》;20141229;第570-573页 *
Melody Extraction From Polyphonic Music Using Particle Filter and Dynamic Programming;Weiwei Zhang等;《IEEE/ACM Transactions on Audio, Speech, and Language Processing》;20180604;第1620-1632页 *

Also Published As

Publication number Publication date
CN108595648A (zh) 2018-09-28

Similar Documents

Publication Publication Date Title
Deng et al. Recursive estimation of nonstationary noise using iterative stochastic approximation for robust speech recognition
CN111261183B (zh) 一种语音去噪的方法及装置
US7856353B2 (en) Method for processing speech signal data with reverberation filtering
Cui et al. Noise robust speech recognition using feature compensation based on polynomial regression of utterance SNR
US20060293887A1 (en) Multi-sensory speech enhancement using a speech-state model
Pertusa et al. Multiple fundamental frequency estimation using Gaussian smoothness
WO2005066927A1 (ja) 多重音信号解析方法
Shahnaz et al. Pitch estimation based on a harmonic sinusoidal autocorrelation model and a time-domain matching scheme
EP1457968B1 (en) Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition
US20150032445A1 (en) Noise estimation apparatus, noise estimation method, noise estimation program, and recording medium
CN108647596B (zh) 音乐主旋律提取方法
CN108735231B (zh) 主旋律音高序列估计方法
CN109192200A (zh) 一种语音识别方法
US7563971B2 (en) Energy-based audio pattern recognition with weighting of energy matches
JP4512848B2 (ja) 雑音抑圧装置及び音声認識システム
JP5344251B2 (ja) 雑音除去システム、雑音除去方法および雑音除去プログラム
CN108595648B (zh) 音乐主旋律提取系统
Zhang et al. Melody extraction from polyphonic music using particle filter and dynamic programming
CN108536871B (zh) 粒子滤波并限定动态规划搜索范围的音乐主旋律提取方法及装置
Zhang et al. Multi-task autoencoder for noise-robust speech recognition
CN108628982B (zh) 基于粒子滤波的主旋律音高序列的粗略估计方法
JP5351856B2 (ja) 音源パラメータ推定装置と音源分離装置とそれらの方法と、プログラムと記憶媒体
Dionelis et al. Modulation-domain Kalman filtering for monaural blind speech denoising and dereverberation
Droppo et al. A comparison of three non-linear observation models for noisy speech features.
JP4673828B2 (ja) 音声信号区間推定装置、その方法、そのプログラム及び記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220304

CF01 Termination of patent right due to non-payment of annual fee