CN103426441B - 检测基音周期的正确性的方法和装置 - Google Patents

检测基音周期的正确性的方法和装置 Download PDF

Info

Publication number
CN103426441B
CN103426441B CN201210155298.4A CN201210155298A CN103426441B CN 103426441 B CN103426441 B CN 103426441B CN 201210155298 A CN201210155298 A CN 201210155298A CN 103426441 B CN103426441 B CN 103426441B
Authority
CN
China
Prior art keywords
pitch period
parameter
correctness
frequency
input signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210155298.4A
Other languages
English (en)
Other versions
CN103426441A (zh
Inventor
齐峰岩
苗磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to CN201210155298.4A priority Critical patent/CN103426441B/zh
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to ES17150741T priority patent/ES2847150T3/es
Priority to PL12876916T priority patent/PL2843659T3/pl
Priority to EP12876916.3A priority patent/EP2843659B1/en
Priority to KR1020147034975A priority patent/KR101649243B1/ko
Priority to EP17150741.1A priority patent/EP3246920B1/en
Priority to HUE12876916A priority patent/HUE034664T2/hu
Priority to KR1020167021709A priority patent/KR101762723B1/ko
Priority to JP2015511902A priority patent/JP6023311B2/ja
Priority to ES12876916.3T priority patent/ES2627857T3/es
Priority to DK12876916.3T priority patent/DK2843659T3/en
Priority to PCT/CN2012/087512 priority patent/WO2013170610A1/zh
Publication of CN103426441A publication Critical patent/CN103426441A/zh
Priority to US14/543,320 priority patent/US9633666B2/en
Publication of CN103426441B publication Critical patent/CN103426441B/zh
Application granted granted Critical
Priority to JP2016197932A priority patent/JP6272433B2/ja
Priority to US15/467,356 priority patent/US10249315B2/en
Priority to US16/277,739 priority patent/US10984813B2/en
Priority to US17/232,807 priority patent/US11741980B2/en
Priority to US18/457,121 priority patent/US20230402048A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00

Abstract

本发明实施例提供了一种检测基音周期正确性的方法和装置。其中,检测基音周期正确性的方法,包括:依据输入信号在时域上的初始基音周期确定所述输入信号的基频点,其中初始基音周期是对所述输入信号进行开环检测得到;基于所述输入信号在频域上的幅度谱确定所述输入信号的与基频点关联的基音周期正确性判决参数;根据所述基音周期正确性判决参数确定所述初始基音周期的正确性。本发明实施例的检测基音周期的正确性的方法和装置能够基于复杂度较低的算法提升基音周期的正确性检测的准确度。

Description

检测基音周期的正确性的方法和装置
技术领域
本发明实施例涉及音频技术领域,并且更具体地,涉及检测基音周期的正确性的方法和装置。
背景技术
在语音与音频信号处理中,基音检测是各种语音与音频实际应用中的关键技术之一。例如,基音检测是语音编码,语音识别,卡拉ok等各种应用中的关键技术。基音检测技术广泛应用于各种电子设备中,例如:移动电话,无线装置,个人数据助理(PDA),手持式或便携式计算机,GPS接收机/导航器,照相机,音频/视频播放器,摄像机,录像机,监控设备等。因此,基音检测的准确度与检测效率将直接影响到各种语音与音频实际应用的效果。
当前的基音检测基本在时域上进行,基音检测算法通常是时域自相关方法。但是,在实际应用中,在时域上进行基音检测经常引发倍频现象,而倍频现象很难在时域中得到很好的解决,因为针对真实基音周期和它的倍频都会得到很大的自相关系数,而且在有背景噪声的情况下,在时域上开环检测出的初始基音周期也会不准。这里,真实基音周期就是在语音中的实际基音周期,也就是正确的基音周期。基音周期是指在语音中可以重复的最小时间间隔。
以在时域上检测初始基音周期为例。ITU-T(InternationalTelecommunicationUnionTelecommunicationStandardizationSector,国际电信联盟电信标准化分会)的语音编码标准大部分都需要进行基音检测,但几乎都是在同一个域(时域或频域)进行。例如,在语音编码标准G729中应用了一种仅在感知加权域进行的开环基音检测方法。
此开环基音检测方法在时域上开环地检测出初始基音周期后,并没有对初始基音周期的正确性进行检测,而是直接对初始基音周期做闭环细检测。由于闭环细检测是在包括开环检测出的初始基音周期在内的一个周期区间上进行,所以一旦上述开环检测出的初始基音周期错了,最后的闭环细检测出的基音周期也会错。也就是说,由于在时域上开环检测出的初始基音周期很难保证绝对正确,如果将错误的初始基音周期应用到后续处理中,会使最终的音频质量下降。
此外,现有技术也提出将在时域上进行的基音周期检测改为在频域上进行的基音周期精细检测,但是在频域上进行基音周期精细检测的复杂度很高。其中,精细检测可以根据初始基音周期对输入信号在时域或频域上做进一步的基音检测,包括短基音检测、分数基音检测或倍频基音检测等等。
发明内容
本发明实施例提供一种检测基音周期的正确性的方法和装置,旨在解决现有技术中在时频或频域上检测初始基音周期的正确性时准确度不高而复杂度较高的问题。
一方面,提供了一种检测基音周期正确性的方法,包括:依据输入信号在时域上的初始基音周期确定所述输入信号的基频点,其中初始基音周期是对所述输入信号进行开环检测得到;基于所述输入信号在频域上的幅度谱确定所述输入信号的与基频点关联的基音周期正确性判决参数;根据所述基音周期正确性判决参数确定所述初始基音周期的正确性。
另一方面,提供了一种检测基音周期正确性的装置,包括:基频点确定单元,用于依据输入信号在时域上的初始基音周期确定所述输入信号的基频点,其中初始基音周期是对所述输入信号进行开环检测得到;参数生成单元,用于基于所述输入信号在频域上的幅度谱确定所述输入信号的与基频点关联的基音周期正确性判决参数;正确性判定单元,用于根据所述基音周期正确性判决参数确定所述初始基音周期的正确性。
本发明实施例的检测基音周期的正确性的方法和装置能够基于复杂度较低的算法提升基音周期的正确性检测的准确度。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的检测基音周期的正确性的方法的流程图。
图2是根据本发明实施例的检测基音周期的正确性的装置的结构示意图。
图3是根据本发明实施例的检测基音周期的正确性的装置的结构示意图。
图4是根据本发明实施例的检测基音周期的正确性的装置的结构示意图。
图5是根据本发明实施例的检测基音周期的正确性的装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提出在频域上对时域开环检测出的初始基音周期的正确性进行检测,以免将错误的初始基音周期应用到后续处理中。
本发明实施例旨在对时域开环检测出的初始基音周期进行进一步的正确性检测,通过在频域上提取有效参数,并组合这些参数做出判决,从而大幅提升基音检测的准确性和稳定性。
根据本发明实施例的检测基音周期正确性的方法如图1所示,包括以下步骤。
11,依据输入信号在时域上的初始基音周期确定该输入信号的基频点,其中初始基音周期是对所述输入信号进行开环检测得到。
通常,输入信号的基频点与初始基音周期成反比,与输入信号进行FFT(FastFourierTransform,快速傅立叶变换)变换的点数成正比。
12,基于该输入信号在频域上的幅度谱确定所述输入信号的与基频点关联的基音周期正确性判决参数。
其中,基音周期正确性判决参数包括谱差分参数Diff_sm、平均谱幅度参数Spec_sm以及差分与幅度比率参数Diff_ratio。谱差分参数Diff_sm是基频点两侧预定个数的频点的谱差分的总和Diff_sum或者基频点两侧预定个数的频点的谱差分的总和Diff_sum的加权平滑值。平均谱幅度参数Spec_sm是基频点两侧预定个数的频点的谱幅度的总和的平均值Spec_avg或者基频点两侧预定个数的频点的谱幅度的总和的平均值Spec_avg的加权平滑值。差分与幅度比率参数Diff_ratio是所述基频点两侧预定个数的频点的谱差分的总和Diff_sum与基频点两侧预定个数的频点的谱幅度的总和的平均值Spec_avg之比。
13,根据基音周期正确性判决参数确定初始基音周期的正确性。
例如,当基音周期正确性判决参数满足正确性判断条件,则确定初始基音周期正确;当基音周期正确性判决参数满足不正确性判断条件,则确定初始基音周期不正确。
具体而言,不正确性判断条件为满足以下中的至少一个:谱差分参数Diff_sm小于第一差分参数阈值,平均谱幅度参数Spec_sm小于第一谱幅度参数阈值,以及差分与幅度比率参数Diff_ratio小于第一比率因子参数阈值。正确性判断条件为满足以下中的至少一个:谱差分参数Diff_sm大于第二差分参数阈值,平均谱幅度参数Spec_sm大于第二谱幅度参数阈值,以及差分与幅度比率参数Diff_ratio大于第二比率因子参数阈值。
例如,当不正确性判断条件为谱差分参数Diff_sm小于第一差分参数阈值而正确性判断条件为谱差分参数Diff_sm大于第二差分参数阈值的情况下,第二差分参数阈值大于第一差分参数阈值。或者,当不正确性判断条件为平均谱幅度参数Spec_sm小于第一谱幅度参数阈值而正确性判断条件为平均谱幅度参数Spec_sm大于第二谱幅度参数阈值的情况下,第二谱幅度参数阈值大于第一谱幅度参数阈值。或者,当不正确性判断条件为差分与幅度比率参数Diff_ratio小于第一比率因子参数阈值而正确性判断条件为差分与幅度比率参数Diff_ratio大于第二比率因子参数阈值的情况下,第二比率因子参数阈值大于第一比率因子参数阈值。
一般而言,如果在时域上检测出的初始基音周期是正确的,那么在对应于该初始基音周期的频点一定存在峰值,并且能量会很大;如果在时域上检测出的初始基音周期是不正确的,那么可以再在频域上进一步做精细检测以确定正确的基音周期。
也就是说,当在根据基音周期正确性判决参数检测初始基音周期的正确性中检测到初始基音周期不正确,则对初始基音周期进行精细检测。
或者,当在根据基音周期正确性判决参数检测初始基音周期的正确性中检测到初始基音周期不正确,则在低频范围检测初始基音周期的能量;当所述能量满足低频能量判断条件时,则进行短基音检测(精细检测的一种方式)。
由此可见,本发明实施例的检测基音周期的正确性的方法能够基于复杂度较低的算法提升基音周期的正确性检测的准确度。
以下将详细描述一个具体实施例,包括如下步骤。
1、对输入信号s(n)进行N点FFT变换,以便将时域的输入信号转换到频域的输入信号,得到频域上相应的幅度谱S(k),其中N=256、512等。
具体地,幅度谱S(k)可通过如下步骤得到:
步骤A1,对输入信号s(n)进行预处理得到预处理输入信号spre(n),预处理可以是高通滤波、重采样或预加重等处理。这里只举例介绍预加重处理,输入信号s(n)经过一阶高通滤波器得到预处理输入信号spre(n),其中高通滤波器的滤波因子Hpre-emph(z)=1-0.68z-1
步骤A2,对预处理输入信号spre(n)进行FFT变换。一个实施例中,对预处理输入信号spre(n)进行两次FFT变换,一次是对当前帧的预处理输入信号进行FFT变换,一次是对当前帧的后半帧以及未来帧的前半帧组成的预处理输入信号进行FFT变换。在做FFT变换之前需要对预处理输入信号进行加窗处理,其中窗函数为: w FFT ( n ) = 0.5 - 0.5 cos ( 2 πn L FFT ) = sin ( πn L FFT ) , n=0,...,LFFT-1。其中,LFFT是FFT变换的长度。
预处理输入信号在加了第一分析窗以及第二分析窗之后的加窗信号为:
s[0] wnd(n)=wFFT(n)spre(n),n=0,...,LFFT-1,
s[1] wnd(n)=wFFT(n)spre(n+LFFT/2),n=0,...,LFFT-1,
其中,第一分析窗对应于当前帧,第二分析窗对应于当前帧的后半帧以及未来帧的前半帧。
对上述加窗信号进行FFT变换,得到频谱系数:
X [ 0 ] ( k ) = Σ n = 0 N - 1 s [ 0 ] wnd ( n ) e - j 2 π kn N , k = 0 , . . . , K - 1 , N = L FFT
X [ 1 ] ( k ) = Σ n = 0 N - 1 s [ 1 ] wnd ( n ) e - j 2 π kn N , k = 0 , . . . , K - 1 , N = L FFT
其中K≤LFFT/2。
未来帧的前半帧是来自于时域编码的下一帧(look-ahead)信号,输入信号可以根据下一帧信号的多少进行调整。使用两次FFT变换的目的是为了尽量得到更精确的频域信息。在另一实施例中,也可以对预处理输入信号spre(n)进行一次FFT变换。
步骤A3,基于频谱系数计算能量谱:
E ( 0 ) = η ( X R 2 ( 0 ) + X R 2 ( L FFT / 2 ) ) ,
E ( k ) = η ( X R 2 ( k ) + X I 2 ( k ) ) , k = 1 , . . . , K - 1 ,
其中,XR(k)和XI(k)分别表示第k频点的实部和虚部;η为常数,例如可以为4/(LFFT*LFFT)
步骤A4,对上述能量谱进行加权处理:
E ~ ( k ) = αE [ 0 ] ( k ) + ( 1 - α ) E [ 1 ] ( k ) , k = 0 , . . . , K - 1 , α ≤ 1
这里,E[0](k)是根据步骤A3中的公式计算得到的频谱系数X[0](k)的能量谱,E[1](k)是根据步骤A3中的公式计算得到的频谱系数X[1](k)的能量谱。
步骤A5,再计算对数域的幅度谱:
S ( k ) = θ log 10 ( ϵ + E ~ ( k ) ) , k = 0 , . . . , K - 1 ,
其中,θ为常数,例如可以为2;ε是较小的正数,为了防止对数值溢出。或者,在工程实现中可以用loge代替log10
2、在时域上对输入信号进行开环检测得到初始基音周期Top,步骤如下。
步骤B1,将输入信号s(n)变为感知加权信号:
sw ( n ) = s ( n ) + Σ i = 1 p a i γ 1 i s ( n - i ) - Σ i = 1 p a i γ 2 i sw ( n - i ) , n = 0 , . . . , N - 1
ai为LP(LinearPrediction,线性预测)系数,γ1和γ2为感知加权因子,p为感知滤波器阶数,N为帧长。
步骤B2,利用相关函数分别在三个候选检测范围(例如在下采样域可以为[62115];[3261];[1731])中找到最大值作为候选基音:
R ( k ) = Σ n = 0 N - 1 sw ( n ) sw ( n - k )
k为基音周期候选检测范围的数值,例如可以是以上三个候选检测范围中的数值。
步骤B3,分别求出三个候选基音的归一化相关系数:
R ′ ( t i ) = R ( t i ) Σ n sw 2 ( n - t i ) , i = 1 , . . . , 3
步骤B4,通过比较各区间的归一化相关系数,选出开环的初始基音周期Top:首先,以第一候选基音的周期为初始基音周期。然后,若第二候选基音的归一化相关系数大于或等于初始基音周期的归一化相关系数与固定的比率因子的乘积,则以第二候选的周期为初始基音周期,否则初始基音周期不变。接着,若第三候选基音的归一化相关系数大于或等于初始基音周期的归一化相关系数与固定的比率因子的乘积,则以第三候选的周期为初始基音周期,否则初始基音周期不变。参见以下的程序表达式:
可以理解,以上得到幅度谱S(k)和初始基音周期Top的步骤无先后顺序限制,可以并行执行,也可以任意一个步骤在先执行。
3、根据FFT变换点数N和初始基音周期T_op得到基频点F_op,
F_op=N/Top
4、计算基频点F_op两侧预定个数的频点的谱幅度总和Spec_sum和谱幅度差分总和Diff_sum。这里,基频点F_op两侧频点的个数可以预先设定。
这里,谱幅度总和Spec_sum是基频点F_op两侧预定个数的频点的谱幅度的总和,谱幅度差分总和Diff_sum是基频点F_op两侧预定个数的频点的谱差分的总和,其中谱差分是指基频点F_op两侧预定个数的频点的谱幅度与基频点的谱幅度的差值。谱幅度总和Spec_sum和谱幅度差分总和Diff_sum可以表示为如下程序表达式:
这里,i是频点的序号。在工程实现中也可以将起始的i值为2,避免最低一个系数的低频干扰。
5、确定平均谱幅度参数Spec_sm、谱差分参数Diff_sm以及差分与幅度比率参数Diff_ratio。
平均谱幅度参数Spec_sm可以是基频点F_op两侧预定个数的频点的平均谱幅度Spec_avg,即谱幅度总和Spec_sum除以基频点F_op两侧预定个数的频点的全部频点数:
Spec_avg=Spec_sum/(2*F_op-1);
进一步地,平均谱幅度参数Spec_sm还可以是基频点F_op两侧预定个数的频点的平均谱幅度Spec_avg的加权平滑值:
Spec_sm=0.2*Spec_sm_pre+0.8*Spec_avg,其中Spec_sm_pre是上一帧的平均谱幅度加权平滑值参数。这里,0.2和0.8是加权平滑系数。可以根据不同的输入信号特点选择不同的加权平滑系数。
谱差分参数Diff_sm可以是谱幅度差分总和Diff_sum或者谱幅度差分总和Diff_sum的加权平滑值:
Diff_sm=0.4*Diff_sm_pre+0.6*Diff_sum,其中Diff_sm_pre是上一帧的谱差分加权平滑值参数。这里,0.4和0.6是加权平滑系数。可以根据不同的输入信号特点选择不同的加权平滑系数。
由上可知,通常,基于上一帧的平均谱幅度参数的加权平滑值Spec_sm_pre确定当前帧的平均谱幅度参数的加权平滑值Spec_sm,基于上一帧的谱差分参数的加权平滑值Diff_sm_pre确定当前帧的谱差分参数的加权平滑值Diff_sm。
差分与幅度比率参数Diff_ratio是谱幅度差分总和Diff_sum与平均谱幅度Spec_avg的比值。
Diff_ratio=Diff_sum/Spec_avg。
平滑的平均谱幅度参数Spec_sm以及谱差分参数Diff_sm。
6、依据平均谱幅度参数Spec_sm、谱差分参数Diff_sm以及差分与幅度比率参数Diff_ratio,判断初始基音周期Top是否正确,并确定是否改变判断标识T_flag。
例如,当谱差分参数Diff_sm小于第一差分参数阈值Diff_thr1,平均谱幅度参数Spec_sm小于第一谱幅度参数阈值Spec_thr1,以及差分与幅度比率参数Diff_ratio小于第一比率因子参数阈值ratio_thr1,则确定正确性标识T_flag为1,并根据该正确性标识确定初始基音周期不正确。再例如,当谱差分参数Diff_sm大于第二差分参数阈值Diff_thr2,平均谱幅度参数Spec_sm大于第二谱幅度参数阈值Spec_thr2,以及差分与幅度比率参数Diff_ratio大于第二比率因子参数阈值ratio_thr2,则确定正确性标识T_flag为0,并根据该正确性标识确定初始基音周期正确。若不同时满足正确性判断条件和不正确性判断条件,则保持原T_flag标识不变。
应理解,第一差分参数阈值Diff_thr1、第一谱幅度参数阈值Spec_thr1和第一比率因子参数阈值ratio_thr1,第二差分参数阈值Diff_thr2、第二谱幅度参数阈值Spec_thr2和第二比率因子参数阈值ratio_thr2可以根据需要进行选择。
对于根据上述方法检测到的不正确的初始基音周期,可以对上述检测结果进行精细检测,以避免上述方法的检测误差。
此外,还可以进一步检测低频范围的能量,来进一步检测初始基音周期的正确性。再对检测到的不正确的基音周期进行短基音检测。
7.1、对初始基音周期可以进一步检测其在低频范围的能量是否很小。当检测到的能量满足低频能量判断条件时,则进行短基音检测。具体地,低频能量判断条件限定了低频能量相对很小与低频能量相对不小两个低频能量相对值,于是当检测到的能量满足低频能量相对很小时,则将正确性标识T_flag置1,如果当检测到的能量满足低频能量相对不小时,则将正确性标识T_flag置0。如果检测到的能量不满足上述低频能量判断条件,则保持原T_flag标识不变。当正确性标识T_flag置1时进行短基音检测。低频能量判断条件除了限定低频能量相对值外,还可以限定其它组合条件来增加其鲁棒性。
例如,首先设置两个频点f_low1和f_low2,分别计算0至f_low1和f_low1至f_low2两个区间上初始基音周期的能量energy1和energy2,再求二者的能量差:energy_diff=energy2-energy1。进一步,可以对这个能量差进行加权,加权因子可以为浊音度因子voice_factor,即energy_diff_w=energy_diff*voice_factor。一般情况下,还可以对加权的能量差进行平滑处理,将平滑处理的结果与预先设定的阈值进行比较来判断初始基音周期在低频范围的能量是否缺失。
或者,简化上述算法,直接求得初始基音周期在一定范围的低频能量,然后对低频能量进行加权和平滑处理,将平滑处理的结果与设定的阈值比较即可。
7.2、进行短基音检测,根据正确性标识T_flag判断或组合其它条件判断是否将短基音检测结果代替初始基音周期Top。或者也可以根据正确性标识T_flag或组合其他条件先判断是否有必要进行短基音检测,然后再做短基音检测。
短基音检测可以在频域做,也可以在时域做。
例如在时域,基音周期的检测范围一般是34至231,做短基音检测就是搜索其范围小于34的基音周期,采用的方法可以是时域的自相关函数法:
R(T)=MAX{R′(t),t<34};
如果R(T)大于预设阈值或初始基音周期对应的自相关值,并且T_flag为1时(这里也可以加入其它条件),就可以认为T是检测出的短基音周期。
除了短基音检测,也可以做倍频检测,如果正确性标识T_flag为1,说明初始基音周期Top是不对的,所以可以在其倍频处做倍频基音周期检测,倍频基音周期可以是初始基音周期Top的整数倍,也可以是初始基音周期Top的分数倍。
对于上述步骤7.1和步骤7.2,为了简化精细检测的过程,可以只进行步骤7.2。
8、以上步骤1至步骤7.2均是针对当前帧进行。在对当前帧处理结束后,需要开始对下一帧进行处理。于是,对于下一帧而言,当前帧的平均谱幅度参数Spec_sm和谱差分参数Diff_sm就作为上一帧的平均谱幅度加权平滑值参数Spec_sm_pre和上一帧的谱差分加权平滑值参数Diff_sm_pre缓存下来实现下一帧的参数平滑。
由此可见,本发明实施例在开环检测输出初始基音周期之后,在频域对初始基音周期的正确性进行检测,如果检测发现初始基音周期不正确,则采用精细检测对其改正,以确保初始基音周期的正确性。在初始基音周期的正确性的检测方法中需要提取基频点两侧预定个数的频点的谱差分参数、平均谱幅度(或谱能量)参数以及差分与幅度比率参数。由于提取这些参数的复杂度较低,因此本发明实施例能够保证基于复杂度较低的算法,输出正确性较高的基音周期。综上所述,本发明实施例的检测基音周期的正确性的方法能够基于复杂度较低的算法提升基音周期的正确性检测的准确度。
下面将参照图2至图4具体描述根据本发明实施例的检测基音周期正确性的装置。
在图2中,检测基音周期正确性的装置20包括基频点确定单元21、参数生成单元22和正确性判定单元23。
其中,基频点确定单元21用于依据输入信号在时域上的初始基音周期确定所述输入信号的基频点,其中初始基音周期是对所述输入信号进行开环检测得到。具体而言,基频点确定单元21基于以下方式确定基频点:输入信号的基频点与所述初始基音周期成反比,与所述输入信号进行FFT变换的点数成正比。
参数生成单元22用于基于所述输入信号在频域上的幅度谱确定所述输入信号的与基频点关联的基音周期正确性判决参数。其中,参数生成单元22生成的所述基音周期正确性判决参数包括谱差分参数Diff_sm、平均谱幅度参数Spec_sm以及差分与幅度比率参数Diff_ratio。谱差分参数Diff_sm是基频点两侧预定个数的频点的谱差分的总和Diff_sum或者基频点两侧预定个数的频点的谱差分的总和Diff_sum的加权平滑值。平均谱幅度参数Spec_sm是基频点两侧预定个数的频点的谱幅度的总和的平均值Spec_avg或者基频点两侧预定个数的频点的谱幅度的总和的平均值Spec_avg的加权平滑值。差分与幅度比率参数Diff_ratio是所述基频点两侧预定个数的频点的谱差分的总和Dif_sum与基频点两侧预定个数的频点的谱幅度的总和的平均值Spec_avg之比。
正确性判定单元23用于根据所述基音周期正确性判决参数确定所述初始基音周期的正确性。
具体地,当正确性判定单元23判定所述基音周期正确性判决参数满足正确性判断条件,则确定初始基音周期正确;或者,当正确性判定单元23判定所述基音周期正确性判决参数满足不正确性判断条件,则确定所述初始基音周期不正确。
这里,不正确性判断条件为满足以下中的至少一个:谱差分参数Diff_sm小于或等于第一差分参数阈值,平均谱幅度参数Spec_sm小于或等于第一谱幅度参数阈值,以及差分与幅度比率参数Diff_ratio小于或等于第一比率因子参数阈值。正确性判断条件为满足以下中的至少一个:谱差分参数Diff_sm大于第二差分参数阈值,平均谱幅度参数Spec_sm大于第二谱幅度参数阈值,以及差分与幅度比率参数Diff_ratio大于第二比率因子参数阈值。
可选地,如图3所示,检测基音周期正确性的装置30相比装置20还包括精细检测单元24,用于当在所述根据所述基音周期正确性判决参数检测所述初始基音周期的正确性中检测到初始基音周期不正确,则对输入信号进行精细检测。
可选地,如图4所示,检测基音周期正确性的装置40相比装置30还可以包括能量检测单元25,用于当在所述根据所述基音周期正确性判决参数检测所述初始基音周期的正确性中检测到不正确的初始基音周期,则在低频范围检测所述初始基音周期的能量。然后,用于当所述能量检测单元24检测到所述能量满足低频能量判断条件时,精细检测单元25对输入信号进行短基音检测。
由此可见,本发明实施例的检测基音周期的正确性的装置能够基于复杂度较低的算法提升基音周期的正确性检测的准确度。
参考图5,另一个实施例中,检测基音周期正确性的装置包括:
接收器,用于接收输入信号。
处理器,用于依据输入信号在时域上的初始基音周期确定所述输入信号的基频点,其中初始基音周期是对所述输入信号进行开环检测得到;基于所述输入信号在频域上的幅度谱确定所述输入信号的与基频点关联的基音周期正确性判决参数;根据所述基音周期正确性判决参数确定所述初始基音周期的正确性。
应理解,该处理器可以实现上述方法实施例中的各个步骤。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (12)

1.一种检测基音周期正确性的方法,其特征在于,包括:
依据输入信号在时域上的初始基音周期确定所述输入信号的基频点,其中初始基音周期是对所述输入信号进行开环检测得到;
基于所述输入信号在频域上的幅度谱确定所述输入信号的与基频点关联的基音周期正确性判决参数;
根据所述基音周期正确性判决参数确定所述初始基音周期的正确性,所述基音周期正确性判决参数包括谱差分参数、平均谱幅度参数以及差分与幅度比率参数,其中所述谱差分参数是基频点两侧预定个数的频点的谱差分的总和或者基频点两侧预定个数的频点的谱差分的总和的加权平滑值,所述平均谱幅度参数是基频点两侧预定个数的频点的谱幅度的总和的平均值或者基频点两侧预定个数的频点的谱幅度的总和的平均值的加权平滑值,所述差分与幅度比率参数是所述基频点两侧预定个数的频点的谱差分的总和与所述基频点两侧预定个数的频点的谱幅度的总和的平均值之比。
2.根据权利要求1所述的方法,其特征在于,所述根据所述基音周期正确性判决参数确定所述初始基音周期的正确性包括:
当所述基音周期正确性判决参数满足正确性判断条件,则确定初始基音周期正确;
当所述基音周期正确性判决参数满足不正确性判断条件,则确定所述初始基音周期不正确。
3.根据权利要求2所述的方法,其特征在于,
所述正确性判断条件为满足以下中的至少一个:
所述谱差分参数大于第二差分参数阈值,所述平均谱幅度参数大于第二谱幅度参数阈值,以及所述差分与幅度比率参数大于第二比率因子参数阈值;
所述不正确性判断条件为满足以下中的至少一个:
所述谱差分参数小于第一差分参数阈值,所述平均谱幅度参数小于第一谱幅度参数阈值,以及所述差分与幅度比率参数小于第一比率因子参数阈值。
4.根据权利要求1至3中任一项所述的方法,其特征在于,当在所述根据所述基音周期正确性判决参数检测所述初始基音周期的正确性中检测到所述初始基音周期不正确,则
对输入信号进行精细检测。
5.根据权利要求1至3中任一项所述的方法,其特征在于,在所述根据所述基音周期正确性判决参数确定所述初始基音周期的正确性之后,还包括:
在低频范围检测能量;
当所述能量满足低频能量判断条件时,则对输入信号进行短基音检测。
6.根据权利要求1至3中任一项所述的方法,其特征在于,所述依据输入信号在时域上的初始基音周期确定所述输入信号的基频点包括:
所述输入信号的基频点与所述初始基音周期成反比,与所述输入信号进行快速傅立叶变换的点数成正比。
7.一种检测基音周期正确性的装置,其特征在于,包括:
基频点确定单元,用于依据输入信号在时域上的初始基音周期确定所述输入信号的基频点,其中初始基音周期是对所述输入信号进行开环检测得到;
参数生成单元,用于基于所述输入信号在频域上的幅度谱确定所述输入信号的与基频点关联的基音周期正确性判决参数;
正确性判定单元,用于根据所述基音周期正确性判决参数确定所述初始基音周期的正确性,所述参数生成单元生成的所述基音周期正确性判决参数包括谱差分参数、平均谱幅度参数以及差分与幅度比率参数,其中所述谱差分参数是基频点两侧预定个数的频点的谱差分的总和或者基频点两侧预定个数的频点的谱差分的总和的加权平滑值,所述平均谱幅度参数是基频点两侧预定个数的频点的谱幅度的总和的平均值或者基频点两侧预定个数的频点的谱幅度的总和的平均值的加权平滑值,所述差分与幅度比率参数是所述基频点两侧预定个数的频点的谱差分的总和与所述基频点两侧预定个数的频点的谱幅度的总和的平均值之比。
8.根据权利要求7所述的装置,其特征在于,所述正确性判定单元具体用于:
当判定所述基音周期正确性判决参数满足正确性判断条件,则确定初始基音周期正确;
当判定所述基音周期正确性判决参数满足不正确性判断条件,则确定所述初始基音周期不正确。
9.根据权利要求8所述的装置,其特征在于,
所述正确性判断条件为满足以下中的至少一个:
所述谱差分参数大于第二差分参数阈值,所述平均谱幅度参数大于第二谱幅度参数阈值,以及所述差分与幅度比率参数大于第二比率因子参数阈值;
所述不正确性判断条件为满足以下中的至少一个:
所述谱差分参数小于或等于第一差分参数阈值,所述平均谱幅度参数小于或等于第一谱幅度参数阈值,以及所述差分与幅度比率参数小于或等于第一比率因子参数阈值。
10.根据权利要求7至9中任一项所述的装置,其特征在于,还包括:
精细检测单元,用于当在所述根据所述基音周期正确性判决参数检测所述初始基音周期的正确性中检测到初始基音周期不正确,则对输入信号进行精细检测。
11.根据权利要求7至9中任一项所述的装置,其特征在于,还包括:
能量检测单元,用于当在所述根据所述基音周期正确性判决参数检测所述初始基音周期的正确性中检测到不正确的初始基音周期,则在低频范围检测所述初始基音周期的能量;
精细检测单元,用于当所述能量满足低频能量判断条件时,则对输入信号进行短基音检测。
12.根据权利要求7至9中任一项所述的装置,其特征在于,所述基频点确定单元用于基于以下方式确定基频点:
所述输入信号的基频点与所述初始基音周期成反比,与所述输入信号进行快速傅立叶变换的点数成正比。
CN201210155298.4A 2012-05-18 2012-05-18 检测基音周期的正确性的方法和装置 Active CN103426441B (zh)

Priority Applications (18)

Application Number Priority Date Filing Date Title
CN201210155298.4A CN103426441B (zh) 2012-05-18 2012-05-18 检测基音周期的正确性的方法和装置
PCT/CN2012/087512 WO2013170610A1 (zh) 2012-05-18 2012-12-26 检测基音周期的正确性的方法和装置
PL12876916T PL2843659T3 (pl) 2012-05-18 2012-12-26 Sposób i przyrząd do wykrywania prawidłowości okresu wysokości tonu
KR1020147034975A KR101649243B1 (ko) 2012-05-18 2012-12-26 피치 주기의 정확도를 검출하는 방법 및 장치
EP17150741.1A EP3246920B1 (en) 2012-05-18 2012-12-26 Method and apparatus for detecting correctness of pitch period
HUE12876916A HUE034664T2 (hu) 2012-05-18 2012-12-26 Eljárás és berendezés pitch periódus helyességének detektálására
KR1020167021709A KR101762723B1 (ko) 2012-05-18 2012-12-26 피치 주기의 정확도를 검출하는 방법 및 장치
JP2015511902A JP6023311B2 (ja) 2012-05-18 2012-12-26 ピッチ周期の正確性を検出するための方法および装置
ES12876916.3T ES2627857T3 (es) 2012-05-18 2012-12-26 Método y aparato para detectar la exactitud del período de tono
DK12876916.3T DK2843659T3 (en) 2012-05-18 2012-12-26 PROCEDURE AND APPARATUS TO DETECT THE RIGHT OF PITCH PERIOD
ES17150741T ES2847150T3 (es) 2012-05-18 2012-12-26 Método y aparato para detectar la exactitud de un período de tono
EP12876916.3A EP2843659B1 (en) 2012-05-18 2012-12-26 Method and apparatus for detecting correctness of pitch period
US14/543,320 US9633666B2 (en) 2012-05-18 2014-11-17 Method and apparatus for detecting correctness of pitch period
JP2016197932A JP6272433B2 (ja) 2012-05-18 2016-10-06 ピッチ周期の正確性を検出するための方法および装置
US15/467,356 US10249315B2 (en) 2012-05-18 2017-03-23 Method and apparatus for detecting correctness of pitch period
US16/277,739 US10984813B2 (en) 2012-05-18 2019-02-15 Method and apparatus for detecting correctness of pitch period
US17/232,807 US11741980B2 (en) 2012-05-18 2021-04-16 Method and apparatus for detecting correctness of pitch period
US18/457,121 US20230402048A1 (en) 2012-05-18 2023-08-28 Method and Apparatus for Detecting Correctness of Pitch Period

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210155298.4A CN103426441B (zh) 2012-05-18 2012-05-18 检测基音周期的正确性的方法和装置

Publications (2)

Publication Number Publication Date
CN103426441A CN103426441A (zh) 2013-12-04
CN103426441B true CN103426441B (zh) 2016-03-02

Family

ID=49583070

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210155298.4A Active CN103426441B (zh) 2012-05-18 2012-05-18 检测基音周期的正确性的方法和装置

Country Status (10)

Country Link
US (5) US9633666B2 (zh)
EP (2) EP3246920B1 (zh)
JP (2) JP6023311B2 (zh)
KR (2) KR101649243B1 (zh)
CN (1) CN103426441B (zh)
DK (1) DK2843659T3 (zh)
ES (2) ES2627857T3 (zh)
HU (1) HUE034664T2 (zh)
PL (1) PL2843659T3 (zh)
WO (1) WO2013170610A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103426441B (zh) 2012-05-18 2016-03-02 华为技术有限公司 检测基音周期的正确性的方法和装置
CN106373594B (zh) * 2016-08-31 2019-11-26 华为技术有限公司 一种音调检测方法及装置
US10249209B2 (en) 2017-06-12 2019-04-02 Harmony Helper, LLC Real-time pitch detection for creating, practicing and sharing of musical harmonies
US11282407B2 (en) 2017-06-12 2022-03-22 Harmony Helper, LLC Teaching vocal harmonies
CN110600060B (zh) * 2019-09-27 2021-10-22 云知声智能科技股份有限公司 一种硬件音频主动探测hvad系统
CN111223491B (zh) * 2020-01-22 2022-11-15 深圳市倍轻松科技股份有限公司 一种提取音乐信号主旋律的方法、装置及终端设备
US11335361B2 (en) * 2020-04-24 2022-05-17 Universal Electronics Inc. Method and apparatus for providing noise suppression to an intelligent personal assistant

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5832437A (en) * 1994-08-23 1998-11-03 Sony Corporation Continuous and discontinuous sine wave synthesis of speech signals from harmonic data of different pitch periods
EP1587061A1 (en) * 2003-09-26 2005-10-19 STMicroelectronics Asia Pacific Pte Ltd Pitch detection of speech signals
CN101354889A (zh) * 2008-09-18 2009-01-28 北京中星微电子有限公司 一种语音变调方法及装置
CN101556795A (zh) * 2008-04-09 2009-10-14 展讯通信(上海)有限公司 计算语音基音频率的方法及设备
CN101814291A (zh) * 2009-02-20 2010-08-25 北京中星微电子有限公司 在时域提高语音信号信噪比的方法和装置
CN102231274A (zh) * 2011-05-09 2011-11-02 华为技术有限公司 基音周期估计值修正方法、基音估计方法和相关装置

Family Cites Families (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8400552A (nl) * 1984-02-22 1985-09-16 Philips Nv Systeem voor het analyseren van menselijke spraak.
US4885790A (en) * 1985-03-18 1989-12-05 Massachusetts Institute Of Technology Processing of acoustic waveforms
CA1245363A (en) * 1985-03-20 1988-11-22 Tetsu Taguchi Pattern matching vocoder
US4776014A (en) * 1986-09-02 1988-10-04 General Electric Company Method for pitch-aligned high-frequency regeneration in RELP vocoders
US5054072A (en) * 1987-04-02 1991-10-01 Massachusetts Institute Of Technology Coding of acoustic waveforms
US4809334A (en) 1987-07-09 1989-02-28 Communications Satellite Corporation Method for detection and correction of errors in speech pitch period estimates
US5127053A (en) 1990-12-24 1992-06-30 General Electric Company Low-complexity method for improving the performance of autocorrelation-based pitch detectors
US7171016B1 (en) * 1993-11-18 2007-01-30 Digimarc Corporation Method for monitoring internet dissemination of image, video and/or audio files
US6463406B1 (en) 1994-03-25 2002-10-08 Texas Instruments Incorporated Fractional pitch method
CA2154911C (en) * 1994-08-02 2001-01-02 Kazunori Ozawa Speech coding device
US6136548A (en) * 1994-11-22 2000-10-24 Rutgers, The State University Of New Jersey Methods for identifying useful T-PA mutant derivatives for treatment of vascular hemorrhaging
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US5729694A (en) * 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
US5864795A (en) 1996-02-20 1999-01-26 Advanced Micro Devices, Inc. System and method for error correction in a correlation-based pitch estimator
US5774836A (en) 1996-04-01 1998-06-30 Advanced Micro Devices, Inc. System and method for performing pitch estimation and error checking on low estimated pitch values in a correlation based pitch estimator
CN1163870C (zh) 1996-08-02 2004-08-25 松下电器产业株式会社 声音编码装置和方法,声音译码装置,以及声音译码方法
US6014622A (en) * 1996-09-26 2000-01-11 Rockwell Semiconductor Systems, Inc. Low bit rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization
JPH10105195A (ja) * 1996-09-27 1998-04-24 Sony Corp ピッチ検出方法、音声信号符号化方法および装置
JP4121578B2 (ja) * 1996-10-18 2008-07-23 ソニー株式会社 音声分析方法、音声符号化方法および装置
US6456965B1 (en) 1997-05-20 2002-09-24 Texas Instruments Incorporated Multi-stage pitch and mixed voicing estimation for harmonic speech coders
US6438517B1 (en) 1998-05-19 2002-08-20 Texas Instruments Incorporated Multi-stage pitch and mixed voicing estimation for harmonic speech coders
US6188980B1 (en) * 1998-08-24 2001-02-13 Conexant Systems, Inc. Synchronized encoder-decoder frame concealment using speech coding parameters including line spectral frequencies and filter coefficients
DE69939086D1 (de) * 1998-09-17 2008-08-28 British Telecomm Audiosignalverarbeitung
US6233549B1 (en) * 1998-11-23 2001-05-15 Qualcomm, Inc. Low frequency spectral enhancement system and method
US6496797B1 (en) * 1999-04-01 2002-12-17 Lg Electronics Inc. Apparatus and method of speech coding and decoding using multiple frames
WO2001013360A1 (en) 1999-08-17 2001-02-22 Glenayre Electronics, Inc. Pitch and voicing estimation for low bit rate speech coders
US6151571A (en) * 1999-08-31 2000-11-21 Andersen Consulting System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters
US6418405B1 (en) 1999-09-30 2002-07-09 Motorola, Inc. Method and apparatus for dynamic segmentation of a low bit rate digital voice message
US6704711B2 (en) * 2000-01-28 2004-03-09 Telefonaktiebolaget Lm Ericsson (Publ) System and method for modifying speech signals
AU2001260162A1 (en) 2000-04-06 2001-10-23 Telefonaktiebolaget Lm Ericsson (Publ) Pitch estimation in a speech signal
JP2002149200A (ja) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd 音声処理装置及び音声処理方法
WO2002029782A1 (en) * 2000-10-02 2002-04-11 The Regents Of The University Of California Perceptual harmonic cepstral coefficients as the front-end for speech recognition
SE522553C2 (sv) 2001-04-23 2004-02-17 Ericsson Telefon Ab L M Bandbreddsutsträckning av akustiska signaler
GB2375028B (en) * 2001-04-24 2003-05-28 Motorola Inc Processing speech signals
US6917912B2 (en) * 2001-04-24 2005-07-12 Microsoft Corporation Method and apparatus for tracking pitch in audio analysis
AU2001270365A1 (en) * 2001-06-11 2002-12-23 Ivl Technologies Ltd. Pitch candidate selection method for multi-channel pitch detectors
US6871176B2 (en) * 2001-07-26 2005-03-22 Freescale Semiconductor, Inc. Phase excited linear prediction encoder
KR100393899B1 (ko) 2001-07-27 2003-08-09 어뮤즈텍(주) 2-단계 피치 판단 방법 및 장치
JP3888097B2 (ja) 2001-08-02 2007-02-28 松下電器産業株式会社 ピッチ周期探索範囲設定装置、ピッチ周期探索装置、復号化適応音源ベクトル生成装置、音声符号化装置、音声復号化装置、音声信号送信装置、音声信号受信装置、移動局装置、及び基地局装置
DE60234195D1 (de) 2001-08-31 2009-12-10 Kenwood Corp Vorrichtung und verfahren zum erzeugen eines tonhöhen-kurvenformsignals und vorrichtung und verfahren zum komprimieren, dekomprimieren und synthetisieren eines sprachsignals damit
US7657427B2 (en) * 2002-10-11 2010-02-02 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
US7233894B2 (en) 2003-02-24 2007-06-19 International Business Machines Corporation Low-frequency band noise detection
ES2338117T3 (es) 2004-05-17 2010-05-04 Nokia Corporation Codificacion de audio con diferentes longitudes de trama de codificacion.
KR100724736B1 (ko) * 2006-01-26 2007-06-04 삼성전자주식회사 스펙트럴 자기상관치를 이용한 피치 검출 방법 및 피치검출 장치
KR100770839B1 (ko) 2006-04-04 2007-10-26 삼성전자주식회사 음성 신호의 하모닉 정보 및 스펙트럼 포락선 정보,유성음화 비율 추정 방법 및 장치
CN100541609C (zh) * 2006-09-18 2009-09-16 华为技术有限公司 一种实现开环基音搜索的方法和装置
CN100524462C (zh) * 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
US9142221B2 (en) * 2008-04-07 2015-09-22 Cambridge Silicon Radio Limited Noise reduction
US20090281803A1 (en) * 2008-05-12 2009-11-12 Broadcom Corporation Dispersion filtering for speech intelligibility enhancement
US9197181B2 (en) * 2008-05-12 2015-11-24 Broadcom Corporation Loudness enhancement system and method
US20090319263A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US20090319261A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
WO2010031049A1 (en) * 2008-09-15 2010-03-18 GH Innovation, Inc. Improving celp post-processing for music signals
CN101599272B (zh) 2008-12-30 2011-06-08 华为技术有限公司 基音搜索方法及装置
EP2211335A1 (en) * 2009-01-21 2010-07-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for obtaining a parameter describing a variation of a signal characteristic of a signal
CN102016530B (zh) * 2009-02-13 2012-11-14 华为技术有限公司 一种基音周期检测方法和装置
US8718804B2 (en) * 2009-05-05 2014-05-06 Huawei Technologies Co., Ltd. System and method for correcting for lost data in a digital audio signal
US8620672B2 (en) 2009-06-09 2013-12-31 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal
JP5433696B2 (ja) * 2009-07-31 2014-03-05 株式会社東芝 音声処理装置
WO2012131438A1 (en) * 2011-03-31 2012-10-04 Nokia Corporation A low band bandwidth extender
CN102842305B (zh) * 2011-06-22 2014-06-25 华为技术有限公司 一种基音检测的方法和装置
CN104115220B (zh) * 2011-12-21 2017-06-06 华为技术有限公司 非常短的基音周期检测和编码
CN103426441B (zh) * 2012-05-18 2016-03-02 华为技术有限公司 检测基音周期的正确性的方法和装置
CN105976830B (zh) * 2013-01-11 2019-09-20 华为技术有限公司 音频信号编码和解码方法、音频信号编码和解码装置
CN104217727B (zh) * 2013-05-31 2017-07-21 华为技术有限公司 信号解码方法及设备
CN108172239B (zh) * 2013-09-26 2021-01-12 华为技术有限公司 频带扩展的方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5832437A (en) * 1994-08-23 1998-11-03 Sony Corporation Continuous and discontinuous sine wave synthesis of speech signals from harmonic data of different pitch periods
EP1587061A1 (en) * 2003-09-26 2005-10-19 STMicroelectronics Asia Pacific Pte Ltd Pitch detection of speech signals
CN101556795A (zh) * 2008-04-09 2009-10-14 展讯通信(上海)有限公司 计算语音基音频率的方法及设备
CN101354889A (zh) * 2008-09-18 2009-01-28 北京中星微电子有限公司 一种语音变调方法及装置
CN101814291A (zh) * 2009-02-20 2010-08-25 北京中星微电子有限公司 在时域提高语音信号信噪比的方法和装置
CN102231274A (zh) * 2011-05-09 2011-11-02 华为技术有限公司 基音周期估计值修正方法、基音估计方法和相关装置

Also Published As

Publication number Publication date
EP3246920B1 (en) 2020-10-28
JP2017027076A (ja) 2017-02-02
US20190180766A1 (en) 2019-06-13
WO2013170610A1 (zh) 2013-11-21
KR20160099729A (ko) 2016-08-22
JP6023311B2 (ja) 2016-11-09
KR20150014492A (ko) 2015-02-06
DK2843659T3 (en) 2017-07-03
US9633666B2 (en) 2017-04-25
CN103426441A (zh) 2013-12-04
US20170194016A1 (en) 2017-07-06
US20230402048A1 (en) 2023-12-14
HUE034664T2 (hu) 2018-02-28
ES2847150T3 (es) 2021-08-02
ES2627857T3 (es) 2017-07-31
US20150073781A1 (en) 2015-03-12
JP6272433B2 (ja) 2018-01-31
US20210335377A1 (en) 2021-10-28
JP2015516597A (ja) 2015-06-11
EP2843659B1 (en) 2017-04-05
KR101762723B1 (ko) 2017-07-28
US11741980B2 (en) 2023-08-29
EP2843659A1 (en) 2015-03-04
KR101649243B1 (ko) 2016-08-18
US10984813B2 (en) 2021-04-20
PL2843659T3 (pl) 2017-10-31
EP2843659A4 (en) 2015-07-15
EP3246920A1 (en) 2017-11-22
US10249315B2 (en) 2019-04-02

Similar Documents

Publication Publication Date Title
CN103426441B (zh) 检测基音周期的正确性的方法和装置
CN103578468B (zh) 一种语音识别中置信度阈值的调整方法及电子设备
CN101206858B (zh) 一种孤立词语音端点检测的方法及系统
CN104620313A (zh) 音频信号分析
CN105529028A (zh) 语音解析方法和装置
CN109034046A (zh) 一种基于声学检测的电能表内异物自动识别方法
EP2392003B1 (en) Audio signal quality prediction
CN103794222A (zh) 语音基音频率检测方法和装置
CN105336344A (zh) 杂音检测方法和装置
CN104364845A (zh) 处理装置、处理方法、程序、计算机可读信息记录介质以及处理系统
CN104036785A (zh) 语音信号的处理方法和装置、以及语音信号的分析系统
AU2012244118B2 (en) Method and System for Identifying Events of Digital Signal
CN112201279A (zh) 一种基音检测方法及装置
CN1971707B (zh) 一种进行基音周期估计和清浊判决的方法及装置
Lin et al. A Novel Normalization Method for Autocorrelation Function for Pitch Detection and for Speech Activity Detection.
CN103267568B (zh) 一种汽车电子控制单元的声音在线检测方法
Suma et al. Novel pitch extraction methods using average magnitude difference function (AMDF) for LPC speech coders in noisy environments
WO2022139730A1 (en) Method enabling the detection of the speech signal activity regions
Yedla et al. Hybrid high noise resiliency pitch detection algoritm
CN117975993A (zh) 音频处理方法、音频处理装置、电子设备和存储介质
Abolhassani et al. A method utilizing window function frequency characteristics for noise-robust spectral pitch estimation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant