CN101567188B - 长短帧联合的混合音频信号多基音估计方法 - Google Patents

长短帧联合的混合音频信号多基音估计方法 Download PDF

Info

Publication number
CN101567188B
CN101567188B CN2009100503508A CN200910050350A CN101567188B CN 101567188 B CN101567188 B CN 101567188B CN 2009100503508 A CN2009100503508 A CN 2009100503508A CN 200910050350 A CN200910050350 A CN 200910050350A CN 101567188 B CN101567188 B CN 101567188B
Authority
CN
China
Prior art keywords
signal
frame
pitch
short
peak
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2009100503508A
Other languages
English (en)
Other versions
CN101567188A (zh
Inventor
王冬梅
黄青华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN2009100503508A priority Critical patent/CN101567188B/zh
Publication of CN101567188A publication Critical patent/CN101567188A/zh
Application granted granted Critical
Publication of CN101567188B publication Critical patent/CN101567188B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明涉及一种长短帧联合的混合音频信号多基音估计方法。本方法首先将混合音频信号分成帧中心重合的长帧和短帧信号,并分别对其进行短时傅里叶变换;然后通过对长帧和短帧信号的频谱峰值进行基于谐波原理的迭代处理实现多基音初步估计。为提高基音估计的准确率,还进行了以下两步跟踪平滑:首先利用短时自相关方法计算得到的混合信号的主基音值进行跟踪平滑,然后使用长、短窗信号频谱中共同的第一峰值处的频率和非第一峰值整数倍共同的第二峰值处频率作为两个信号的基音值,继续平滑跟踪基音值。本方法的优点是长、短窗相结合,克服了短时傅立叶变换中时间分辨率和频率分辨率之间的矛盾,避免了由于主瓣太宽而使得某些谐波峰值因相互覆盖而丢失的缺点。同时两步跟踪平滑又使得某些帧中错误估计的基音值得到了校正。

Description

长短帧联合的混合音频信号多基音估计方法
技术领域
本发明涉及混合音频信号多基音估计的方法,此方法有别于传统单个音频信号基音的估计。具体是基于音频信号的谐波原理,结合长窗帧和短窗帧的频谱峰值进行多基音估计,并将混合信号短时自相关计算得到的主基音值以及长、短窗共同的第一、第二峰值作为两个粗略的基音值,来跟踪平滑初始估计出的基音值。与传统的多基音估计相比,本方法结合了长、短窗帧,克服了语音信号的短时平稳性和短时傅立叶变换频率分辨率低的矛盾;并利用了两步跟踪平滑方法,使得基音估计值更准确。
背景技术
单基音估计是音频信号处理领域重要技术之一,已经发展得很成熟,但是多基音估计还是音频信号处理领域的最难解决的问题之一。随着音频信号处理新的研究方向的出现,多基音估计显得尤为重要,比如单通道音频信号盲分离,音频检索,流行音乐中歌词的自动获取等。
目前多基音估计主要是基于音频信号的谐波原理在频域里进行的,或者是利用计算听觉场景分析(CASA)在时间-频率域上进行的。前者对混合信号进行短时傅立叶变换,提取并预处理频谱峰值,然后用迭代的方法或者最大似然的方法进行多基音估计,此方法的缺点是在音频信号的短时平稳性与短时傅里叶变换的频率分辨率的选择上存在矛盾,使得某些靠近的频谱峰值相互覆盖而丢失;后者是根据人耳的听觉特性,将信号分解成频域上非线性分布的一系列时频单元,利用时频单元内部的短时自相关和相邻时频单元之间的互相关进行多基音的估计,但是各个时频单元相关性计算值往往与真实值之间有很大的差异。粒子滤波也是一种有效的多基音估计方法,但是其计算复杂度高。
发明内容
本发明的目的是提供一种有效的长短帧联合的混合音频信号的多基音估计方法,克服传统方法由于音频信号的短时平稳性和傅立叶变换时频分辨率相矛盾的而造成的不足,并使得最终基音结果得到平滑跟踪。
为了达到上述目的,本发明采用下述记述方案:
一种长短帧联合的混合音频信号多基音估计方法,其特征在于基于谐波模型并结合长、短帧信号的频谱来对混合音频信号进行多基音估计,其步骤如下:
(1)将混合音频信号分成帧中心重合的长帧和短帧,分别对每一组长帧和短帧信号进行短时傅立叶变换,提取各自的频谱峰值并进行预处理,得到长窗信号的频谱峰值
Figure G2009100503508D00011
以及短窗信号的频谱峰值
Figure G2009100503508D00021
(2)利用长窗信号的频谱峰值
Figure G2009100503508D00022
进行该帧混合信号的主基音初步估计:计算
Figure G2009100503508D00023
所有峰值之间的频率间隔并作为潜在基音向量
Figure G2009100503508D00024
再利用
Figure G2009100503508D00025
每个元素与
Figure G2009100503508D00026
中实际峰值频率的误差最小以及谐波数最多的联合约束条件来计算本帧初始主基音Pitchpromi
(3)利用Pitchpromi
Figure G2009100503508D00027
以及判断本帧信号的个数状态,用状态向量
Figure G2009100503508D00029
来表示;其判断过程是根据音频信号的谐波原理以及频谱峰值和频谱能量之间的关系,将混合信号分为四种情况,分别是:情况1,只有一个以Pitchpromi为基音的信号;情况2,只有一个以Pitchpromi的两倍或更高频率为基音值的信号;情况3,以高频基音信号为主能量信号,而以Pitchpromi为基音的信号非主要能量信号;情况4,有两个信号且能量相当;
(4)根据步骤(3)中个数状态向量
Figure G2009100503508D000210
进行各种状态下的基音估计。在谐波原理的基础上,利用频谱峰值
Figure G2009100503508D000211
以及潜在基音向量
Figure G2009100503508D000212
在频率上的整数倍关系,在频率偏差最小和谐波数最多的联合约束条件下,通过选取最优值进行多基音估计;
(5)用每一帧的短时自相关峰值进行估计后的基音的平滑跟踪;
(6)选择每一组对应长帧信号和短帧信号频谱峰值共同的第一峰值和第二峰值(非第一峰值整数倍)处的频谱对步骤(5)中处理过的峰值进行第二次跟踪平滑;
(7)利用连续基音值的相似性和连续谐波峰值相似性,将以上跟踪平滑过后的峰值进行聚类,使其归属到各自的信号。
本发明与现有技术相比较,具有如下显而易见的突出实质性特点和显著优点:
本发明采用长、短窗相结合,克服了短时傅立叶变换中时间分辨率和频率分辨率之间的矛盾,避免了由于主瓣太宽而使得某些峰值因相互覆盖而丢失的缺点。同时两步跟踪平滑又使得某些帧中错误估计的基音值得到了校正。
附图说明
图1为本发明所述方法的流程图;
具体实施方式
本发明的一个优选实施例结合附图详细描述如下:
本方法的流程图参见图1,本长短帧联合的混合音频多基音估计方法,是基于谐波模型并结合长短帧信号的频谱来对混合音频信号进行多基音估计,其步骤如下:。
(1)将信号分解成相应的短帧(30ms)和长帧(90ms)信号,其帧中心重合。分别对长帧和短帧信号进行短时傅立叶变换。提取并预处理所有频谱峰值,为了防止低频频谱峰值被误删掉,保留所有500Hz以下的峰值,而对500Hz以上,对其进行200Hz为间隔进行分段,删除小于每个频段中最大值的1/10的峰值。最后得到预处理后的峰值分别为
Figure G2009100503508D00031
以及
(2)利用长窗信号的频谱峰值
Figure G2009100503508D00033
进行该帧混合信号的主基音初步估计:将
Figure G2009100503508D00034
所有峰值之间的频率间隔作为潜在基音向量
Figure G2009100503508D00035
Figure G2009100503508D00036
中分别选择每个元素的整数倍峰值(允许与理想值有15Hz的频率偏差)组成与每个潜在基音值相对应的谐波组合,选取长度最长且平均频率偏差最小的谐波组合所对应的潜在基音值作为本帧初始主基音Pitchpromi
(3)利用Pitchpromi
Figure G2009100503508D00038
以及
Figure G2009100503508D00039
判断本帧信号的个数状态,用状态向量
Figure G2009100503508D000310
来表示。其判断过程为:计算短窗峰值
Figure G2009100503508D000311
中所有相邻峰值的频率间隔
Figure G2009100503508D000312
观察其中是否有大于2·Pitchpromi的值,如果有且数量超过2个,那么说明本帧只有一个高频基音信号,此时置 StateJudge → ( 2 * 1 ) = 1 0 T ; 如果有,但是数量不超过2个,那么说明本帧存在一个高频信号,且占主要量,此时置 StateJudge → ( 2 * 1 ) = 0 1 T ; 如果没有,那么置 StateJudge → ( 2 * 1 ) = 0 0 T ; 由所有峰值都是
Figure G2009100503508D000317
的整数倍,且没有旁瓣效应(奇数倍的谐波峰值总是整个频域峰值的峰谷),那么该帧只存在以Pitchpromi为主基音的一个信号,此时置 StateJudge → ( 2 * 1 ) = 1 1 T , 若有明显的旁瓣效应,那么说明该帧只存在一个以2·Pitchpromi为基音的信号,此时置 StateJudge → ( 2 * 1 ) = 1 0 T .
(4)根据步骤(3)中信号判断的状态
Figure G2009100503508D000320
进行分离,
Figure G2009100503508D000321
共有四种状态:(a).当 StateJudge → ( 2 * 1 ) = 1 0 T 时,说明此时混合信号中只有一个高频基音信号存在,此时只需要利用短窗帧信号的频谱峰值
Figure G2009100503508D000323
以及短窗帧的潜在基音向量
Figure G2009100503508D000324
利用计算初始主基音Pitchpromi的方法计算出该高频基音值;(b).当 StateJudge → ( 2 * 1 ) = 0 1 T 时,此帧里有两个信号,且高频信号是主信号。利用(a)的方法计算出高频主基音,将高频主基音的整数倍谐波峰值从混合信号长窗帧的频谱峰值里减去,再利用估计
Figure G2009100503508D000326
的方法从剩余峰值里估计出另一个信号基音值。(c).当 StateJudge → ( 2 * 1 ) = 1 1 T 说明此帧只有一个信号,且其基音值就是Pitchpromi。(d).当 StateJudge → ( 2 * 1 ) = 0 0 T , 此时不好判断该帧的信号个数,就按一般的步骤,将(3)中估计的初始主基音的整数倍频谱峰值,从混合信号的长帧频谱峰值里减去,利用(a)的方法继续从剩余峰值里估计出另一个信号的基音频率。
(5)用混合信号的短时自相关计算得到的主基音值Pitchauto来跟踪平滑步骤(4)中初步估计出来的频谱峰值。根据Pitchauto中连续的基音值进行分段用一个分段与其对应的初步估计出来的基音值相对照,如果此此分段符合整个初步估计出的基音值的平均值范围,就用Pitchauto中的此分段代替其中之一信号的基音值。
(6)用混合信号的长窗帧和短窗帧的共同的第一峰值和第二峰值(非第一峰值整数倍,若是就放弃,继续向高频寻找)作为另一组跟踪平滑用的粗略基音频率。将已经估计好的基音值中的孤立的或者缺失的基音值,用此粗略基音频率来代替。
(7)基音值聚类,使其归属各自的信号。将相邻帧之间的基音值小于15Hz的基音值归并到一个段,再计算每个段的平均值Pitchave,将相邻段间连续变化没有突变的Pitchave的段归并到一个信号。继而用基音值所对应的谐波组合的相似性进一步聚类。

Claims (1)

1.长短帧联合的混合音频信号多基音估计方法,其特征在于基于谐波模型并结合长、短帧信号的频谱来对混合音频信号进行多基音估计,其步骤如下:
(1)将混合音频信号分成帧中心相对应的长帧和短帧,分别对每一组长帧和短帧信号进行短时傅立叶变换,提取各自的频谱峰值并进行预处理,得到长窗信号的频谱峰值
Figure FSB00000573714800011
以及短窗信号的频谱峰值
Figure FSB00000573714800012
(2)利用长窗信号的频谱峰值
Figure FSB00000573714800013
进行该帧混合信号的主基音初步估计:计算
Figure FSB00000573714800014
所有峰值之间的频率间隔并作为潜在基音向量
Figure FSB00000573714800015
再利用每个元素与中实际峰值频率的误差最小以及谐波数最多的联合约束条件来计算本帧初始主基音pitchpromi
(3)利用pitchpromi
Figure FSB00000573714800018
以及
Figure FSB00000573714800019
判断本帧信号的个数状态,用状态向量
Figure FSB000005737148000110
来表示;其判断过程是根据音频信号的谐波原理以及频谱峰值和频谱能量之间的关系,将混合信号分为四种情况,分别是:情况1,只有一个以Pitchpromi为基音的信号;情况2,只有一个以pitchpromi的两倍或更高频率为基音值的信号;情况3,以高频基音信号为主能量信号,而以Pitchpromi为基音的信号是非主要能量信号;情况4,有两个信号且能量相当;
(4)根据步骤(3)中个数状态向量
Figure FSB000005737148000111
进行各种状态下的基音估计,在谐波原理的基础上,利用频谱峰值
Figure FSB000005737148000112
以及潜在基音向量
Figure FSB000005737148000113
在频率上的整数倍关系,在频率偏差最小和谐波数最多的联合约束条件下,通过选取最优值进行多基音估计;
(5)用每一帧的短时自相关峰值进行估计后的基音的平滑跟踪;
(6)选择每一组对应长帧信号和短帧信号频谱峰值共同的第一峰值和第二峰值处的频谱对步骤(5)中处理后的基音进行第二次跟踪平滑,其中第二峰值非第一峰值整数倍;
(7)利用连续基音值的相似性和连续谐波峰值相似性,将以上跟踪平滑过后的峰值进行聚类,使其归属到各自的信号。
CN2009100503508A 2009-04-30 2009-04-30 长短帧联合的混合音频信号多基音估计方法 Expired - Fee Related CN101567188B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009100503508A CN101567188B (zh) 2009-04-30 2009-04-30 长短帧联合的混合音频信号多基音估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100503508A CN101567188B (zh) 2009-04-30 2009-04-30 长短帧联合的混合音频信号多基音估计方法

Publications (2)

Publication Number Publication Date
CN101567188A CN101567188A (zh) 2009-10-28
CN101567188B true CN101567188B (zh) 2011-10-26

Family

ID=41283321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100503508A Expired - Fee Related CN101567188B (zh) 2009-04-30 2009-04-30 长短帧联合的混合音频信号多基音估计方法

Country Status (1)

Country Link
CN (1) CN101567188B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103258552B (zh) * 2012-02-20 2015-12-16 扬智科技股份有限公司 调整播放速度的方法
CN104683933A (zh) * 2013-11-29 2015-06-03 杜比实验室特许公司 音频对象提取
CN104200818A (zh) * 2014-08-06 2014-12-10 重庆邮电大学 一种音高检测方法
CN105469807B (zh) * 2015-12-30 2019-04-02 中国科学院自动化研究所 一种多基频提取方法及装置
CN107039051B (zh) * 2016-02-03 2019-11-26 重庆工商职业学院 基于蚁群优化的基音频率检测方法
WO2018084848A1 (en) * 2016-11-04 2018-05-11 Hewlett-Packard Development Company, L.P. Dominant frequency processing of audio signals
CN111600630B (zh) * 2020-05-12 2021-07-06 中国电子科技集团公司第五十四研究所 一种联合使用大小点数fft的跳频信号检测方法

Also Published As

Publication number Publication date
CN101567188A (zh) 2009-10-28

Similar Documents

Publication Publication Date Title
CN101567188B (zh) 长短帧联合的混合音频信号多基音估计方法
US11056130B2 (en) Speech enhancement method and apparatus, device and storage medium
Févotte et al. Two contributions to blind source separation using time-frequency distributions
CN102664017B (zh) 一种3d音频质量客观评价方法
Hu et al. Monaural speech segregation based on pitch tracking and amplitude modulation
CN101778322B (zh) 基于多模型和听觉特性的麦克风阵列后滤波语音增强方法
EP3040991B1 (en) Voice activation detection method and device
CN102438189B (zh) 基于双通路声信号的声源定位方法
KR20190034302A (ko) 다중 채널 신호 인코딩 방법 및 인코더
US20120016677A1 (en) Method and device for audio signal classification
CN103440869A (zh) 一种音频混响的抑制装置及其抑制方法
CN103325381A (zh) 一种基于模糊隶属函数的语音分离方法
CN104464728A (zh) 基于gmm噪声估计的语音增强方法
US9589577B2 (en) Speech recognition apparatus and speech recognition method
CN105679312A (zh) 一种噪声环境下声纹识别的语音特征处理方法
CN105590630A (zh) 基于指定带宽的定向噪音抑制方法
US9495973B2 (en) Speech recognition apparatus and speech recognition method
CN103905656A (zh) 残留回声的检测方法及装置
CN102314883B (zh) 一种判断音乐噪声的方法以及语音消噪方法
JP4119112B2 (ja) 混合音の分離装置
Wu et al. A pitch-based method for the estimation of short reverberation time
Nower et al. Restoration of instantaneous amplitude and phase using Kalman filter for speech enhancement
CN111755028A (zh) 一种基于基音特征的近场遥控器语音端点检测方法及系统
Mahmoodzadeh et al. Determination of pitch range based on onset and offset analysis in modulation frequency domain
CN109346097B (zh) 一种基于Kullback-Leibler差异的语音增强方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20111026

Termination date: 20140430