CN101567188A - 长短帧联合的混合音频信号多基音估计方法 - Google Patents
长短帧联合的混合音频信号多基音估计方法 Download PDFInfo
- Publication number
- CN101567188A CN101567188A CNA2009100503508A CN200910050350A CN101567188A CN 101567188 A CN101567188 A CN 101567188A CN A2009100503508 A CNA2009100503508 A CN A2009100503508A CN 200910050350 A CN200910050350 A CN 200910050350A CN 101567188 A CN101567188 A CN 101567188A
- Authority
- CN
- China
- Prior art keywords
- signal
- frame
- pitch
- short
- peak
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Auxiliary Devices For Music (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明涉及一种长短帧联合的混合音频信号多基音估计方法。本方法首先将混合音频信号分成帧中心重合的长帧和短帧信号,并分别对其进行短时傅里叶变换;然后通过对长帧和短帧信号的频谱峰值进行基于谐波原理的迭代处理实现多基音初步估计。为提高基音估计的准确率,还进行了以下两步跟踪平滑:首先利用短时自相关方法计算得到的混合信号的主基音值进行跟踪平滑,然后使用长、短窗信号频谱中共同的第一峰值处的频率和非第一峰值整数倍共同的第二峰值处频率作为两个信号的基音值,继续平滑跟踪基音值。本方法的优点是长、短窗相结合,克服了短时傅立叶变换中时间分辨率和频率分辨率之间的矛盾,避免了由于主瓣太宽而使得某些谐波峰值因相互覆盖而丢失的缺点。同时两步跟踪平滑又使得某些帧中错误估计的基音值得到了校正。
Description
技术领域
本发明涉及混合音频信号多基音估计的方法,此方法有别于传统单个音频信号基音的估计。具体是基于音频信号的谐波原理,结合长窗帧和短窗帧的频谱峰值进行多基音估计,并将混合信号短时自相关计算得到的主基音值以及长、短窗共同的第一、第二峰值作为两个粗略的基音值,来跟踪平滑初始估计出的基音值。与传统的多基音估计相比,本方法结合了长、短窗帧,克服了语音信号的短时平稳性和短时傅立叶变换频率分辨率低的矛盾;并利用了两步跟踪平滑方法,使得基音估计值更准确。
背景技术
单基音估计是音频信号处理领域重要技术之一,已经发展得很成熟,但是多基音估计还是音频信号处理领域的最难解决的问题之一。随着音频信号处理新的研究方向的出现,多基音估计显得尤为重要,比如单通道音频信号盲分离,音频检索,流行音乐中歌词的自动获取等。
目前多基音估计主要是基于音频信号的谐波原理在频域里进行的,或者是利用计算听觉场景分析(CASA)在时间-频率域上进行的。前者对混合信号进行短时傅立叶变换,提取并预处理频谱峰值,然后用迭代的方法或者最大似然的方法进行多基音估计,此方法的缺点是在音频信号的短时平稳性与短时傅里叶变换的频率分辨率的选择上存在矛盾,使得某些靠近的频谱峰值相互覆盖而丢失;后者是根据人耳的听觉特性,将信号分解成频域上非线性分布的一系列时频单元,利用时频单元内部的短时自相关和相邻时频单元之间的互相关进行多基音的估计,但是各个时频单元相关性计算值往往与真实值之间有很大的差异。粒子滤波也是一种有效的多基音估计方法,但是其计算复杂度高。
发明内容
本发明的目的是提供一种有效的长短帧联合的混合音频信号的多基音估计方法,克服传统方法由于音频信号的短时平稳性和傅立叶变换时频分辨率相矛盾的而造成的不足,并使得最终基音结果得到平滑跟踪。
为了达到上述目的,本发明采用下述记述方案:
一种长短帧联合的混合音频信号多基音估计方法,其特征在于基于谐波模型并结合长、短帧信号的频谱来对混合音频信号进行多基音估计,其步骤如下:
(2)利用长窗信号的频谱峰值进行该帧混合信号的主基音初步估计:计算所有峰值之间的频率间隔并作为潜在基音向量再利用每个元素与中实际峰值频率的误差最小以及谐波数最多的联合约束条件来计算本帧初始主基音Pitchpromi;
(3)利用Pitchpromi、以及判断本帧信号的个数状态,用状态向量来表示;其判断过程是根据音频信号的谐波原理以及频谱峰值和频谱能量之间的关系,将混合信号分为四种情况,分别是:情况1,只有一个以Pitchpromi为基音的信号;情况2,只有一个以Pitchpromi的两倍或更高频率为基音值的信号;情况3,以高频基音信号为主能量信号,而以Pitchpromi为基音的信号非主要能量信号;情况4,有两个信号且能量相当;
(4)根据步骤(3)中个数状态向量进行各种状态下的基音估计。在谐波原理的基础上,利用频谱峰值以及潜在基音向量在频率上的整数倍关系,在频率偏差最小和谐波数最多的联合约束条件下,通过选取最优值进行多基音估计;
(5)用每一帧的短时自相关峰值进行估计后的基音的平滑跟踪;
(6)选择每一组对应长帧信号和短帧信号频谱峰值共同的第一峰值和第二峰值(非第一峰值整数倍)处的频谱对步骤(5)中处理过的峰值进行第二次跟踪平滑;
(7)利用连续基音值的相似性和连续谐波峰值相似性,将以上跟踪平滑过后的峰值进行聚类,使其归属到各自的信号。
本发明与现有技术相比较,具有如下显而易见的突出实质性特点和显著优点:
本发明采用长、短窗相结合,克服了短时傅立叶变换中时间分辨率和频率分辨率之间的矛盾,避免了由于主瓣太宽而使得某些峰值因相互覆盖而丢失的缺点。同时两步跟踪平滑又使得某些帧中错误估计的基音值得到了校正。
附图说明
图1为本发明所述方法的流程图;
具体实施方式
本发明的一个优选实施例结合附图详细描述如下:
本方法的流程图参见图1,本长短帧联合的混合音频多基音估计方法,是基于谐波模型并结合长短帧信号的频谱来对混合音频信号进行多基音估计,其步骤如下:。
(1)将信号分解成相应的短帧(30ms)和长帧(90ms)信号,其帧中心重合。分别对长帧和短帧信号进行短时傅立叶变换。提取并预处理所有频谱峰值,为了防止低频频谱峰值被误删掉,保留所有500Hz以下的峰值,而对500Hz以上,对其进行200Hz为间隔进行分段,删除小于每个频段中最大值的1/10的峰值。最后得到预处理后的峰值分别为以及
(2)利用长窗信号的频谱峰值进行该帧混合信号的主基音初步估计:将所有峰值之间的频率间隔作为潜在基音向量在中分别选择每个元素的整数倍峰值(允许与理想值有15Hz的频率偏差)组成与每个潜在基音值相对应的谐波组合,选取长度最长且平均频率偏差最小的谐波组合所对应的潜在基音值作为本帧初始主基音Pitchpromi。
(3)利用Pitchpromi、以及判断本帧信号的个数状态,用状态向量来表示。其判断过程为:计算短窗峰值中所有相邻峰值的频率间隔观察其中是否有大于2·Pitchpromi的值,如果有且数量超过2个,那么说明本帧只有一个高频基音信号,此时置如果有,但是数量不超过2个,那么说明本帧存在一个高频信号,且占主要量,此时置如果没有,那么置若由所有峰值都是的整数倍,且没有旁瓣效应(奇数倍的谐波峰值总是整个频域峰值的峰谷),那么该帧只存在以Pitchpromi为主基音的一个信号,此时置若有明显的旁瓣效应,那么说明该帧只存在一个以2·Pitchpromi为基音的信号,此时置
(4)根据步骤(3)中信号判断的状态进行分离,共有四种状态:(a).当时,说明此时混合信号中只有一个高频基音信号存在,此时只需要利用短窗帧信号的频谱峰值以及短窗帧的潜在基音向量利用计算初始主基音Pitchpromi的方法计算出该高频基音值;(b).当时,此帧里有两个信号,且高频信号是主信号。利用(a)的方法计算出高频主基音,将高频主基音的整数倍谐波峰值从混合信号长窗帧的频谱峰值里减去,再利用估计的方法从剩余峰值里估计出另一个信号基音值。(c).当说明此帧只有一个信号,且其基音值就是Pitchpromi。(d).当此时不好判断该帧的信号个数,就按一般的步骤,将(3)中估计的初始主基音的整数倍频谱峰值,从混合信号的长帧频谱峰值里减去,利用(a)的方法继续从剩余峰值里估计出另一个信号的基音频率。
(5)用混合信号的短时自相关计算得到的主基音值Pitchauto来跟踪平滑步骤(4)中初步估计出来的频谱峰值。根据Pitchauto中连续的基音值进行分段用一个分段与其对应的初步估计出来的基音值相对照,如果此此分段符合整个初步估计出的基音值的平均值范围,就用Pitchauto中的此分段代替其中之一信号的基音值。
(6)用混合信号的长窗帧和短窗帧的共同的第一峰值和第二峰值(非第一峰值整数倍,若是就放弃,继续向高频寻找)作为另一组跟踪平滑用的粗略基音频率。将已经估计好的基音值中的孤立的或者缺失的基音值,用此粗略基音频率来代替。
(7)基音值聚类,使其归属各自的信号。将相邻帧之间的基音值小于15Hz的基音值归并到一个段,再计算每个段的平均值Pitchave,将相邻段间连续变化没有突变的Pitchave的段归并到一个信号。继而用基音值所对应的谐波组合的相似性进一步聚类。
Claims (1)
1.长短帧联合的混合音频信号多基音估计方法,其特征在于基于谐波模型并结合长、短帧信号的频谱来对混合音频信号进行多基音估计,其步骤如下:
(2)利用长窗信号的频谱峰值进行该帧混合信号的主基音初步估计:计算所有峰值之间的频率间隔并作为潜在基音向量再利用每个元素与中实际峰值频率的误差最小以及谐波数最多的联合约束条件来计算本帧初始主基音Pitchpromi;
(3)利用Pitchpromi、以及判断本帧信号的个数状态,用状态向量来表示;其判断过程是根据音频信号的谐波原理以及频谱峰值和频谱能量之间的关系,将混合信号分为四种情况,分别是:情况1,只有一个以Pitchpromi为基音的信号;情况2,只有一个以Pitchpromi的两倍或更高频率为基音值的信号;情况3,以高频基音信号为主能量信号,而以Pitchpromi为基音的信号是非主要能量信号;情况4,有两个信号且能量相当;
(4)根据步骤(3)中个数状态向量进行各种状态下的基音估计。在谐波原理的基础上,利用频谱峰值 以及潜在基音向量在频率上的整数倍关系,在频率偏差最小和谐波数最多的联合约束条件下,通过选取最优值进行多基音估计;
(5)用每一帧的短时自相关峰值进行估计后的基音的平滑跟踪;
(6)选择每一组对应长帧信号和短帧信号频谱峰值共同的第一峰值和第二峰值(非第一峰值整数倍)处的频谱对(5)中处理过的峰值进行第二次跟踪平滑;
(7)利用连续基音值的相似性和连续谐波峰值相似性,将以上跟踪平滑过后的峰值进行聚类,使其归属到各自的信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009100503508A CN101567188B (zh) | 2009-04-30 | 2009-04-30 | 长短帧联合的混合音频信号多基音估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009100503508A CN101567188B (zh) | 2009-04-30 | 2009-04-30 | 长短帧联合的混合音频信号多基音估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101567188A true CN101567188A (zh) | 2009-10-28 |
CN101567188B CN101567188B (zh) | 2011-10-26 |
Family
ID=41283321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009100503508A Expired - Fee Related CN101567188B (zh) | 2009-04-30 | 2009-04-30 | 长短帧联合的混合音频信号多基音估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101567188B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103258552A (zh) * | 2012-02-20 | 2013-08-21 | 扬智科技股份有限公司 | 调整播放速度的方法 |
CN104200818A (zh) * | 2014-08-06 | 2014-12-10 | 重庆邮电大学 | 一种音高检测方法 |
CN105469807A (zh) * | 2015-12-30 | 2016-04-06 | 中国科学院自动化研究所 | 一种多基频提取方法及装置 |
CN105874533A (zh) * | 2013-11-29 | 2016-08-17 | 杜比实验室特许公司 | 音频对象提取 |
CN107039051A (zh) * | 2016-02-03 | 2017-08-11 | 重庆工商职业学院 | 基于蚁群优化的基音频率检测方法 |
CN109791773A (zh) * | 2016-11-04 | 2019-05-21 | 惠普发展公司有限责任合伙企业 | 音频信号的主频率处理 |
CN111600630A (zh) * | 2020-05-12 | 2020-08-28 | 中国电子科技集团公司第五十四研究所 | 一种联合使用大小点数fft的跳频信号检测方法 |
-
2009
- 2009-04-30 CN CN2009100503508A patent/CN101567188B/zh not_active Expired - Fee Related
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103258552A (zh) * | 2012-02-20 | 2013-08-21 | 扬智科技股份有限公司 | 调整播放速度的方法 |
CN103258552B (zh) * | 2012-02-20 | 2015-12-16 | 扬智科技股份有限公司 | 调整播放速度的方法 |
CN105874533A (zh) * | 2013-11-29 | 2016-08-17 | 杜比实验室特许公司 | 音频对象提取 |
CN105874533B (zh) * | 2013-11-29 | 2019-11-26 | 杜比实验室特许公司 | 音频对象提取 |
CN104200818A (zh) * | 2014-08-06 | 2014-12-10 | 重庆邮电大学 | 一种音高检测方法 |
CN105469807A (zh) * | 2015-12-30 | 2016-04-06 | 中国科学院自动化研究所 | 一种多基频提取方法及装置 |
CN105469807B (zh) * | 2015-12-30 | 2019-04-02 | 中国科学院自动化研究所 | 一种多基频提取方法及装置 |
CN107039051A (zh) * | 2016-02-03 | 2017-08-11 | 重庆工商职业学院 | 基于蚁群优化的基音频率检测方法 |
CN109791773A (zh) * | 2016-11-04 | 2019-05-21 | 惠普发展公司有限责任合伙企业 | 音频信号的主频率处理 |
CN111600630A (zh) * | 2020-05-12 | 2020-08-28 | 中国电子科技集团公司第五十四研究所 | 一种联合使用大小点数fft的跳频信号检测方法 |
CN111600630B (zh) * | 2020-05-12 | 2021-07-06 | 中国电子科技集团公司第五十四研究所 | 一种联合使用大小点数fft的跳频信号检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101567188B (zh) | 2011-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101567188B (zh) | 长短帧联合的混合音频信号多基音估计方法 | |
US11056130B2 (en) | Speech enhancement method and apparatus, device and storage medium | |
KR101831078B1 (ko) | 보이스 활성화 탐지 방법 및 장치 | |
US11935548B2 (en) | Multi-channel signal encoding method and encoder | |
Févotte et al. | Two contributions to blind source separation using time-frequency distributions | |
Hu et al. | Monaural speech segregation based on pitch tracking and amplitude modulation | |
CN101778322B (zh) | 基于多模型和听觉特性的麦克风阵列后滤波语音增强方法 | |
CN103325381B (zh) | 一种基于模糊隶属函数的语音分离方法 | |
CN102438189A (zh) | 基于双通路声信号的声源定位方法 | |
CN109068012B (zh) | 一种用于音频会议系统的双端通话检测方法 | |
CN104091593B (zh) | 采用感知语谱结构边界参数的语音端点检测算法 | |
CN105469807B (zh) | 一种多基频提取方法及装置 | |
JP2012522255A (ja) | オーディオ信号分類の方法および装置 | |
KR20070080365A (ko) | IOI 카운트(inter onset intervalcount) 기반 템포 추정 방법 및 이를 위한 템포 추정장치 | |
US9589577B2 (en) | Speech recognition apparatus and speech recognition method | |
CN105590630A (zh) | 基于指定带宽的定向噪音抑制方法 | |
US9495973B2 (en) | Speech recognition apparatus and speech recognition method | |
CN102314883B (zh) | 一种判断音乐噪声的方法以及语音消噪方法 | |
JP4119112B2 (ja) | 混合音の分離装置 | |
Rao et al. | Speech enhancement using sub-band cross-correlation compensated Wiener filter combined with harmonic regeneration | |
CN103337245B (zh) | 基于子带信号的信噪比曲线的噪声抑制方法及装置 | |
CN111755028A (zh) | 一种基于基音特征的近场遥控器语音端点检测方法及系统 | |
Nower et al. | Restoration of instantaneous amplitude and phase using Kalman filter for speech enhancement | |
Mahmoodzadeh et al. | Determination of pitch range based on onset and offset analysis in modulation frequency domain | |
CN109346097B (zh) | 一种基于Kullback-Leibler差异的语音增强方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20111026 Termination date: 20140430 |