CN103794222A - 语音基音频率检测方法和装置 - Google Patents

语音基音频率检测方法和装置 Download PDF

Info

Publication number
CN103794222A
CN103794222A CN201210427486.8A CN201210427486A CN103794222A CN 103794222 A CN103794222 A CN 103794222A CN 201210427486 A CN201210427486 A CN 201210427486A CN 103794222 A CN103794222 A CN 103794222A
Authority
CN
China
Prior art keywords
candidate
fundamental frequency
frequency
voice signal
div
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210427486.8A
Other languages
English (en)
Other versions
CN103794222B (zh
Inventor
吴晟
林福辉
徐晶明
蒋斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Spreadtrum Communications Shanghai Co Ltd
Original Assignee
Spreadtrum Communications Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Spreadtrum Communications Shanghai Co Ltd filed Critical Spreadtrum Communications Shanghai Co Ltd
Priority to CN201210427486.8A priority Critical patent/CN103794222B/zh
Publication of CN103794222A publication Critical patent/CN103794222A/zh
Application granted granted Critical
Publication of CN103794222B publication Critical patent/CN103794222B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Electrophonic Musical Instruments (AREA)

Abstract

本发明公开一种语音基音频率检测方法和装置。其中在语音基音频率检测方法中,检测语音信号帧中的单调分量,利用频谱幅值最大的M个单调分量的频率确定候选基频,并将候选基频放置在候选基频集合中,计算候选基频集合中每个候选基频的和谐判据,将具有最大和谐判据的候选基频作为所述语音信号帧的基频。通过利用具有较大能量的单调分量作为基音检测的基础,从而提高了基音检测在有噪环境下的准确率。

Description

语音基音频率检测方法和装置
技术领域
本发明涉及通信领域,特别是涉及一种语音基音频率检测方法和装置。
背景技术
人类语音由清音和浊音构成。清音是气流通过口径缩小的声门,气流高速冲过产生湍流引起的摩擦音,这种音在语音中占的比例较少,发声时声带不振动,因此没有周期性,类似于宽带噪音;浊音呼气使声带靠拢发声颤动时发出的具有周期性的声音,这种声音在频率构成上由一个基音和一系列谐音构成,基音的频率就是声音周期的倒数。音频频率在语音信号处理中是最基本的参数之一,它在语音信号的分析、合成、编码、识别等各项应用中起着非常重要的作用。
在语音的基音频率检测方面,已经有很多相关研究成果,这些成果大多基于相关性的检测,即通过时域、频域或者信号的预测残差的自相关函数来得到相关性峰值所在的延迟采样数或者离散频率数。基于自相关的方法有以下几个缺陷,首先是自相关的计算量较大;其次检测出的周期采样数是整数,其对应的频率便是一组离散数,精度不足,这在基音频率较高时问题突出;三,自相关函数的峰值判断困难,多数情况下会有多个峰对应着基频、谐频或干扰噪声,这常常导致基频判断错误。
发明内容
本发明要解决的技术问题是提供一种语音基音频率检测方法和装置。通过利用具有较大能量的单调分量作为基音检测的基础,能够提高基音检测在有噪环境下的准确率。
根据本发明的一个方面,提供一种语音基音频率检测方法,包括:
检测语音信号帧中的单调分量;
利用频谱幅值最大的M个单调分量的频率确定候选基频,并将候选基频放置在候选基频集合中;
计算候选基频集合中每个候选基频的和谐判据;
将具有最大和谐判据的候选基频作为所述语音信号帧的基频。
优选的,检测语音信号帧中的单调分量的步骤包括:
针对语音信号帧中的每一个频谱幅值XA[k],若XA[k]同时大于XA[k-1]和XA[k+1],则将XA[k]作为单调分量,其中k为频谱序号索引。
优选的,若XA[k]同时大于XA[k-1]和XA[k+1],进一步判断XA[k]与所述语音信号帧中的最大频谱幅值的比值是否大于幅度阈值;
若XA[k]与所述语音信号帧中的最大频谱幅值的比值大于幅度阈值,则执行将XA[k]作为单调分量的步骤。
优选的,频谱序号索引k的取值范围为大于索引下限int[flowN/fs],小于索引上限int[fhighN/fs],其中函数int[]表示向下舍入取整函数,N为语音信号帧长度,fs为语音信号的采样频率,flow为频率下限,fhigh为频率上限。
优选的,利用频谱幅值最大的M个单调分量的频率确定候选基频,并将候选基频放置在候选基频集合中的步骤包括:
选择频谱幅值最大的M个单调分量;
对于所述M个单调分量中的每一个单调分量XA[k],分别计算相应的分频频率Tf[k]/mdiv,其中Tf[k]为单调分量XA[k]对应的频率,mdiv为正整数;
将属于基频范围内的分频频率Tf[k]/mdiv作为候选基频放置到候选基频集合中。
优选的,将属于基频范围内的分频频率Tf[k]/mdiv作为候选基频放置到候选基频集合中的步骤之后,还包括:
将候选基频集合中数值接近的候选基频合并。
优选的,将候选基频集合中数值接近的候选基频合并的步骤包括:
对于候选基频集合中的包含Kg个元素的子集合{Fcandidate[gi},i=1,2,...,Kg,若满足
max { F candidate [ g 1 ] , . . . , F candidate [ g K g ] } - min { F candidate [ g 1 ] , . . . , F candidate [ g K g ] } mean { F candidate [ g 1 ] , . . . , F candidate [ g K g ] } < r f _ thr ,
则将子集合{Fcandidate[gi]}中的全部基频合并为一个新候选基频,新候选基频的频率值为
mean { F candidate [ g 1 ] , . . . , F candidate [ g K g ] } ,
其中max()是获取最大值的函数,min()是获取最小值的函数,mean()是计算平均值的函数,rf_thr为频率相似阈值。
优选的,单调分量XA[k]对应的频率Tf[k]为kfs/N,其中N为语音信号帧长度,fs为语音信号的采样频率。
优选的,单调分量XA[k]对应的频率Tf[k]为kffs/N,其中,
k f = k + X A [ k - 1 ] - X A [ k + 1 ] X A [ k - 1 ] + X A [ k + 1 ] - 2 X A [ k ] ,
N为语音信号帧长度,fs为语音信号的采样频率。
优选的,单调分量XA[k]对应的频率Tf[k]为kffs/N,其中,
若XA[k-1]<XA[k+1],则
k f = k + 1 2 - 1 2 X A [ k ] - X A [ k + 1 ] X A [ k ] - X A [ k - 1 ] ,
若XA[k-1]>XA[k+1],则
k f = k - 1 2 + 1 2 X A [ k ] - X A [ k - 1 ] X A [ k ] - X A [ k + 1 ] ,
N为语音信号帧长度,fs为语音信号的采样频率。
优选的,单调分量XA[k]对应的频率Tf[k]为
T f [ k ] = f s N k + f s L res [ X P - X P &prime; 2 &pi; - k L N ] ,
其中XP为语音信号帧的频谱相位,XP’为语音信号帧的L点采样前的频谱相位,res[]为取整残差函数,res[x]=x-int[x+0.5]。
优选的,计算候选基频集合中每个候选基频的和谐判据的步骤包括:
对于候选基频集合中的每个候选基频Fcandidate[g],如果在单调分量集合中存在一个包括KC个单调分量的子集合,所述子集合对应的频率集合为{Tf[c1],...,Tf[cKc]},同时满足
m div = int [ T f [ c 1 ] F candidate [ g ] + 0.5 ] = int [ T f [ c 2 ] F candidate [ g ] + 0.5 ] = . . . = int [ T f [ c K C ] F candidate [ g ] + 0.5 ]
max { | m div F candidate [ g ] - T f [ c 1 ] | m div F candidate [ g ] , . . . , | m div F candidate [ g ] - T f [ c K C ] | m div F candidate [ g ] } < r h _ thr ,
则将所述子集合中频率幅度最大的单调分量作为候选基频Fcandidate[g]的第mdiv-1次谐音Ag[mdiv-1],其中rh thr为非和谐阈值;
利用候选基频Fcandidate[g]的各次谐音计算候选基频Fcandidate[g]的和谐判据Jh[g],其中
J h [ g ] = &Sigma; m = 0 m M - 1 { F weight _ l ( A g [ m ] ) &times; F weight _ h ( A g [ m + 1 ] ) } ,
其中mM为最大的谐音次数,Fweight_l()和Fweight_h()为加权函数,
F weight _ l ( x ) = x &lambda; l + &mu; l F weight _ h ( x ) = x &lambda; h + &mu; h ,
λll和λh,μh为加权系数。
优选的,若候选基频Fcandidate[g]的第m次谐音Ag[m]不存在,且m≠0,则设定Ag[m]的幅度为第m-1次谐音Ag[m-1]的幅度的β倍;
若候选基频Fcandidate[g]的第0次谐音Ag[0]不存在,则设定Ag[0]的幅度为0。
优选的,利用候选基频Fcandidate[g]的各次谐音计算候选基频Fcandidate[g]的和谐判据Jh[g]的步骤之后,还包括:
判断候选基频Fcandidate[g]相对于前一语音信号帧的基频f0_old的偏差是否满足延续性条件,即:
| F candidate [ g ] - f 0 _ old | f 0 _ old < r f _ change ,
若候选基频Fcandidate[g]相对于前一语音信号帧的基频f0_old的偏差满足延续性条件,则将候选基频Fcandidate[g]的和谐判据Jh[g]乘以加权系数α,其中rf_change为偏差阈值。
根据本发明的另一方面,提供一种语音基音频率检测装置,包括:
检测单元,用于检测语音信号帧中的单调分量;
候选基频确定单元,用于利用频谱幅值最大的M个单调分量的频率确定候选基频,并将候选基频放置在候选基频集合中;
和谐判据计算单元,用于计算候选基频集合中每个候选基频的和谐判据;
基频选择单元,用于将具有最大和谐判据的候选基频作为所述语音信号帧的基频。
优选的,检测单元具体针对语音信号帧中的每一个频谱幅值XA[k],若XA[k]同时大于XA[k-1]和XA[k+1],则将XA[k]作为单调分量,其中k为频谱序号索引。
优选的,检测单元还用于在XA[k]同时大于XA[k-1]和XA[k+1]时,进一步判断XA[k]与所述语音信号帧中的最大频谱幅值的比值是否大于幅度阈值,若XA[k]与所述语音信号帧中的最大频谱幅值的比值大于幅度阈值,则执行将XA[k]作为单调分量的操作。
优选的,频谱序号索引k的取值范围为大于索引下限int[flowN/fs],小于索引上限int[fhighN/fs],其中函数int[]表示向下舍入取整函数,N为语音信号帧长度,fs为语音信号的采样频率,flow为频率下限,fhigh为频率上限。
优选的,候选基频确定单元包括第一选择模块、分频频率计算模块和第二选择模块,其中:
第一选择模块,用于选择频谱幅值最大的M个单调分量;
分频频率计算模块,用于对于所述M个单调分量中的每一个单调分量XA[k],分别计算相应的分频频率Tf[k]/mdiv,其中Tf[k]为单调分量XA[k]对应的频率,mdiv为正整数;
第二选择模块,用于将属于基频范围内的分频频率Tf[k]/mdiv作为候选基频放置到候选基频集合中。
优选的,候选基频确定单元还包括合并模块,用于将候选基频集合中数值接近的候选基频合并。
优选的,合并模块具体针对候选基频集合中的包含Kg个元素的子集合{Fcandidate[gi},i=1,2,...,Kg,若满足
max { F candidate [ g 1 ] , . . . , F candidate [ g K g ] } - min { F candidate [ g 1 ] , . . . , F candidate [ g K g ] } mean { F candidate [ g 1 ] , . . . , F candidate [ g K g ] } < r f _ thr ,
则将子集合{Fcandidate[gi]}中的全部基频合并为一个新候选基频,新候选基频的频率值为
mean { F candidate [ g 1 ] , . . . , F candidate [ g K g ] } ,
其中max()是获取最大值的函数,min()是获取最小值的函数,mean()是计算平均值的函数,rf_thr为频率相似阈值。
优选的,和谐判据计算单元具体包括谐音选择模块、判据计算模块,其中:
谐音选择模块,用于针对候选基频集合中的每个候选基频Fcandidate[g],如果在单调分量集合中存在一个包括KC个单调分量的子集合,所述子集合对应的频率集合为{Tf[c1],...,Tf[cKc]},同时满足
m div = int [ T f [ c 1 ] F candidate [ g ] + 0.5 ] = int [ T f [ c 2 ] F candidate [ g ] + 0.5 ] = . . . = int [ T f [ c K C ] F candidate [ g ] + 0.5 ]
max { | m div F candidate [ g ] - T f [ c 1 ] | m div F candidate [ g ] , . . . , | m div F candidate [ g ] - T f [ c K C ] | m div F candidate [ g ] } < r h _ thr ,
则将所述子集合中频率幅度最大的单调分量作为候选基频Fcandidate[g]的第mdiv-1次谐音Ag[mdiv-1],其中rh_thr为非和谐阈值;
判据计算模块,用于利用候选基频Fcandidate[g]的各次谐音计算候选基频Fcandidate[g]的和谐判据Jh[g],其中
J h [ g ] = &Sigma; m = 0 m M - 1 { F weight _ l ( A g [ m ] ) &times; F weight _ h ( A g [ m + 1 ] ) } ,
其中mM为最大的谐音次数,Fweight_l()和Fweight_h()为加权函数,
F weight _ l ( x ) = x &lambda; l + &mu; l F weight _ h ( x ) = x &lambda; h + &mu; h ,
λll和λhk为加权系数。
优选的,谐音选择模块具体在候选基频Fcandidate[g]的第m次谐音Ag[m]不存在时,且m≠0,则设定Ag[m]的幅度为第m-1次谐音Ag[m-1]的幅度的β倍;在候选基频Fcandidate[g]的第0次谐音Ag[0]不存在时,则设定Ag[0]的幅度为0。
优选的,和谐判据计算单元还包括加权模块,用于在判据计算模块利用候选基频Fcandidate[g]的各次谐音计算候选基频Fcandidate[g]的和谐判据Jh[g]的步骤之后,判断候选基频Fcandidate[g]相对于前一语音信号帧的基频f0_old的偏差是否满足延续性条件,即:
| F candidate [ g ] - f 0 _ old | f 0 _ old < r f _ change ,
若候选基频Fcandidate[g]相对于前一语音信号帧的基频f0_old的偏差满足延续性条件,则将候选基频Fcandidate[g]的和谐判据Jh[g]乘以加权系数α,其中rf_change为偏差阈值。
从语音的频域分析可以得知,语音由基音和一系列频率接近基音整数倍的谐音组成,这些基音/谐音中,往往会有一个或数个具有较大能量。反之,在某一时刻语音信号频谱中,幅度或能量最大的几个单调分量,它们具有极大的可能是语音的基音或谐音。那么当前语音的基频频率,具有极大可能等于或接近于这几个单调分量中某一个所对应的频率或该频率的分频。利用这些具有较大幅度或能量的单调分量作为基音检测的基础,基音检测方法可以有较高的抗噪声能力。
本发明通过找到当前时刻语音信号频谱中幅度最大的几个单调分量,利用它们的频率以及整数倍分频作为候选的基频,对这些候选基频逐个做谐波检测,评估当前语音是否在该频率和谐,最终将具有最大和谐性评估判据的候选基频作为检测到的基频。这种方法充分利用了语音频谱中信噪比最大的部分,因此提高了基音检测在有噪环境下的准确率。
附图说明
图1为本发明语音基音频率检测方法一个实施例的示意图。
图2为本发明确定候选基频方法一个实施例的示意图。
图3为本发明确定候选基频方法另一实施例的示意图。
图4为本发明等腰三角形匹配一个实施例的示意图。
图5为本发明计算和谐判据方法一个实施例的示意图。
图6为本发明计算和谐判据方法另一实施例的示意图。
图7为本发明对纯净语音进行基音检测的结果示意图。
图8为本发明对含噪语音进行基音检测的结果示意图。
图9为本发明语音基音频率检测装置一个实施例的示意图。
图10为本发明候选基频确定单元一个实施例的示意图。
图11为本发明候选基频确定单元另一实施例的示意图。
图12为本发明和谐判据计算单元一个实施例的示意图。
图13为本发明和谐判据计算单元另一实施例的示意图。
具体实施方式
下面参照附图对本发明进行更全面的描述,其中说明本发明的示例性实施例。
图1为本发明语音基音频率检测方法一个实施例的示意图。如图1所示,本实施例的语音基音频率检测方法步骤如下:
步骤101,检测语音信号帧中的单调分量。
步骤102,利用频谱幅值最大的M个单调分量的频率确定候选基频,并将候选基频放置在候选基频集合中。
步骤103,计算候选基频集合中每个候选基频的和谐判据。
步骤104,将具有最大和谐判据的候选基频作为所述语音信号帧的基频。
通过利用具有较大能量的单调分量作为基音检测的基础,能够提高基音检测在有噪环境下的准确率。
优选的,在上述步骤101中,具体采用以下方式检测语音信号帧中的单调分量:
针对语音信号帧中的每一个频谱幅值XA[k],若XA[k]同时大于XA[k-1]和XA[k+1],则将XA[k]作为单调分量,其中k为频谱序号索引,k=0,1,2,…,N/2,N为语音信号帧的长度。
优选的,若XA[k]同时大于XA[k-1]和XA[k+1],还需进一步判断XA[k]与所述语音信号帧中的最大频谱幅值的比值是否大于幅度阈值。
若XA[k]与所述语音信号帧中的最大频谱幅值的比值大于幅度阈值,则将XA[k]作为单调分量;否则,不将XA[k]作为单调分量。
这是由于,仅仅检测频谱幅度XA中的峰值,会带来大量的伪单调分量,这些伪单调分量实际相对频谱本底能量并没有特别突出,或本身就是频谱的一些波动,它们的存在不但会极大增加后续谐波检测的计算量,而且还会降低检测的准确率。通过设置单调分量的幅度阈值可以有效排除这些伪单调分量。
优选的,幅度阈值的取值为不大于20%。作为一种优选实施例,幅度阈值的取值为5%。
单调分量的检测可以对全部频带进行,优选地检测集中语音主要能量的频率范围。因此,可以将频谱序号索引k的取值范围设定为大于索引下限int[flowN/fs],同时小于索引上限int[fhighN/fs],其中函数int[]表示向下舍入取整函数,N为语音信号帧长度,fs为语音信号的采样频率,flow为频率下限,fhigh为频率上限。
优选的,频率下限flow的取值范围是40-90Hz,频率上限fhigh的取值范围是1200-2000Hz。作为一种优选实施例,频率下限flow的取值是45Hz,频率上限fhigh的取值是1800Hz。
图2为本发明确定候选基频方法一个实施例的示意图。优选的,如图2所示,上述确定候选基频的步骤102可包括以下步骤:
步骤201,选择频谱幅值最大的M个单调分量。
步骤202,对于所述M个单调分量中的每一个单调分量XA[k],分别计算相应的分频频率Tf[k]/mdiv,其中Tf[k]为单调分量XA[k]对应的频率,mdiv为正整数。
步骤203,将属于基频范围内的分频频率Tf[k]/mdiv作为候选基频放置到候选基频集合中。
在某一时刻的语音信号频谱中,幅度或能量最大的几个单调分量,它们极有可能是语音的基音或谐音。那么当前语音的基频频率,极有可能等于或接近于这几个单调分量中某一个所对应的频率或该频率的分频。利用这些具有较大幅度或能量的单调分量作为基音检测的基础,基音检测方法可以有较高的抗噪声能力。
基频范围对应着人类语音的最常见的基音频率范围。优选的,基频范围的下限为50-100Hz,基频范围的上限为400-800Hz。作为一种优选实施例,基频范围的下限为70Hz,基频范围的上限为500Hz。
图3为本发明确定候选基频方法另一实施例的示意图。与图2所示实施例相比,在图3所示实施例中,还进一步对候选基频集合中数值接近的候选基频合并。具体方法步骤如下:
步骤301,选择频谱幅值最大的M个单调分量。
步骤302,对于所述M个单调分量中的每一个单调分量XA[k],分别计算相应的分频频率Tf[k]/mdiv,其中Tf[k]为单调分量XA[k]对应的频率,mdiv为正整数。
步骤303,将属于基频范围内的分频频率Tf[k]/mdiv作为候选基频放置到候选基频集合中。
步骤304,将候选基频集合中数值接近的候选基频合并。
在候选基频集合中,往往会有数个候选基频频率值十分接近。通过将这些候选基频合并,可以将候选基频集合变小,这可降低后续计算的工作量。
优选的,上述将候选基频集合中数值接近的候选基频合并的步骤包括:
对于候选基频集合中的包含Kg个元素的子集合{Fcandidate[gi]},i=1,2,...,Kg,若满足
max { F candidate [ g 1 ] , . . . , F cadidate [ g K g ] } - min { F candidate [ g 1 ] , . . . , F candidate [ g K g ] } mean { F candidate [ g 1 ] , . . . , F candidate [ g K g ] } < r f _ thr ,
则将子集合{Fcandidate[gi]}中的全部基频合并为一个新候选基频,新候选基频的频率值为
mean { F candidate [ g 1 ] , . . . , F candidate [ g K g ] } ,
其中max()是获取最大值的函数,min()是获取最小值的函数,mean()是计算平均值的函数,rf_thr为频率相似阈值。
优选的,频率相似阈值rf_thr的取值大于0且不大于0.2,作为一个优选实施例,频率相似阈值rf_thr的取值为0.02。
在上述实施例中,可通过各种方式计算单调分量XA[k]对应的频率Tf[k],下面给出几个具体实施例。需要说明的是,这几个实施例仅是示例性的,并不用于限定本发明。
实施例一:将单调分量XA[k]对应的频率Tf[k]为kfs/N,其中N为语音信号帧长度,fs为语音信号的采样频率。这是频率Tf[k]的一种近似表示。
实施例二:单调分量XA[k]对应的频率Tf[k]为kffs/N。这里,kf对应于XA[k-1]、XA[k]和XA[k+1]做二阶多项式拟合求得其最高点。二阶多项式拟合是令二阶多项式曲线ax2+bx+c=y通过三个点{k-1,XA[k-1]},{k,XA[k]},{k+1,XA[k+1]},曲线的最大值将出现在
k f = x = - b 2 a = k + X A [ k - 1 ] - X A [ k + 1 ] X A [ k - 1 ] + X A [ k + 1 ] - 2 X A [ k ] ,
其中N为语音信号帧长度,fs为语音信号的采样频率。
可选地,用于二阶多项式拟合的幅度值XA[k-1]、XA[k]和XA[k+1]可以用它们的对数域值log{XA[k-1]}、log{XA[k]}和log{XA[k+1]}代替。
实施例三:单调分量XA[k]对应的频率Tf[k]为kffs/N。这里,kf对应于利用XA[k-1]、XA[k]和XA[k+1]做等腰三角形匹配求得的最高点。
等腰三角形匹配是令三个点{k-1,XA[k-1]}、{k,XA[k]}、{k+1,XA[k+1]}在等腰三角形对称的两条腰上,等腰三角形的底平行于索引对应的轴。可选地,用于等腰三角形匹配的幅度值XA[k-1]、XA[k]和XA[k+1]可以用它们的对数域值代替。图4为本发明等腰三角形匹配一个实施例的示意图,其中XA[k-1]<XA[k+1]。
若XA[k-1]<XA[k+1],则等腰三角形的顶点出现在
k f = k + 1 2 - 1 2 X A [ k ] - X A [ k + 1 ] X A [ k ] - X A [ k - 1 ] ,
同时,若XA[k-1]>XA[k+1],则等腰三角形的顶点出现在
k f = k - 1 2 + 1 2 X A [ k ] - X A [ k - 1 ] X A [ k ] - X A [ k + 1 ] ,
其中N为语音信号帧长度,fs为语音信号的采样频率。
实施例四:利用相位差进行频率估计以得到所有频率对应的频率。即,单调分量XA[k]对应的频率Tf[k]为
T f [ k ] = f s N k + f s L res [ X P - X P &prime; 2 &pi; - k L N ] ,
其中XP为语音信号帧的频谱相位,XP’为语音信号帧的L点采样前的频谱相位,res[]为取整残差函数,res[x]=x-int[x+0.5]。
图5为本发明计算和谐判据一个实施例的示意图。优选的,如图5所示,上述计算和谐判据的步骤103可包括以下步骤:
步骤501,计算候选基频的各次谐音。
优选的,对于候选基频集合中的每个候选基频Fcandidate[g],如果在单调分量集合中存在一个包括KC个单调分量的子集合,所述子集合对应的频率集合为{Tf[c1],...,Tf[cKc]},同时满足
m div = int [ T f [ c 1 ] F candidate [ g ] + 0.5 ] = int [ T f [ c 2 ] F candidate [ g ] + 0.5 ] = . . . = int [ T f [ c K C ] F candidate [ g ] + 0.5 ]
max { | m div F candidate [ g ] - T f [ c 1 ] | m div F candidate [ g ] , . . . , | m div F candidate [ g ] - T f [ c K C ] | m div F candidate [ g ] } < r h _ thr ,
则将所述子集合中频率幅度最大的单调分量作为候选基频Fcandidate[g]的第mdiv-1次谐音Ag[mdiv-1],其中rh_thr为非和谐阈值。
优选的,非和谐阈值rh_thr的取值范围是大于0且小于0.15。作为一种优选实施例,rh_thr的取值为0.05。
优选的,若候选基频Fcandidate[g]的第m次谐音Ag[m]不存在,且m≠0,则设定Ag[m]的幅度为第m-1次谐音Ag[m-1]的幅度的β倍。若候选基频Fcandidate[g]的第0次谐音Ag[0]不存在,则设定Ag[0]的幅度为0。
优选的,β的范围是0<β<1。作为一种优选实施例,β的值为0.5。
步骤502,利用候选基频的各次谐音计算候选基频的和谐判据。
优选的,利用候选基频Fcandidate[g]的各次谐音计算候选基频Fcandidate[g]的和谐判据Jh[g],其中
J h [ g ] = &Sigma; m = 0 m M - 1 { F weight _ l ( A g [ m ] ) &times; F weight _ h ( A g [ m + 1 ] ) } ,
其中mM为最大的谐音次数,Fweight_l()和Fweight_h()为加权函数,
F weight _ l ( x ) = x &lambda; l + &mu; l F weight _ h ( x ) = x &lambda; h + &mu; h ,
λll和λhh为加权系数。
优选的,加权系数λl和λh的取值范围是0<λlh<3,μl和μh的取值范围是-min(Ag[m])<μlh<max(Ag[m]),m=1,2,...,mM。作为一种优选实施例,λl=1,λh=1,μl=0,μh=0。
图6为本发明计算和谐判据另一实施例的示意图。与图5所示实施例相比,在图6所示实施例中,还需要进一步对和谐判据进行加权处理。具体方法步骤如下:
步骤601,计算候选基频的各次谐音。
步骤602,利用候选基频的各次谐音计算候选基频的和谐判据。
步骤603,对和谐判据进行加权处理。
语音基频的变化是连续的,几乎不存在突变。基音判断由于种种因素干扰,得到的基音估计会出现跳变,主要是跳变到一次倍频。为了提高基音估计的连续性,在判决前需要对和谐性评估判据Jh[g]进行延续性加权。即,判断候选基频Fcandidate[g]相对于前一语音信号帧的基频f0_old的偏差是否满足延续性条件,即:
| F candidate [ g ] - f 0 _ old | f 0 _ old < r f _ change ,
若候选基频Fcandidate[g]相对于前一语音信号帧的基频f0_old的偏差满足延续性条件,则将候选基频Fcandidate[g]的和谐判据Jh[g]乘以加权系数α,其中rf_change为偏差阈值。
优选的,加权系数α的取值范围为1.5≤α≤3,偏差阈值rf_change的取值范围为0.1≤rf_change≤0.3。作为一种优选实施例,加权系数α的取值为2,参数rf_change的取值为0.2。
图7和图8分别是使用本发明对一段纯净语音和一段含噪语音进行基音检测的结果。语音信号的采样频率是8000Hz,频谱分析的帧长为512,每隔128个采样进行一次分析,频率估计采用相位差估计,其余参数均采用上述优选实施例。在图7和图8中,上半部分曲线为检测到的基音轨迹,下半部分是语音的光谱图。从图7和图8中可以看到,本发明的基音检测效果良好,检测到的基音轨迹能平稳准确的符合语音光谱图中的声纹轨迹。
图9为本发明语音基音频率检测装置一个实施例的示意图。如图9所示,该装置包括:
检测单元901,用于检测语音信号帧中的单调分量。
候选基频确定单元902,用于利用频谱幅值最大的M个单调分量的频率确定候选基频,并将候选基频放置在候选基频集合中。
和谐判据计算单元903,用于计算候选基频集合中每个候选基频的和谐判据。
基频选择单元904,用于将具有最大和谐判据的候选基频作为所述语音信号帧的基频。
通过利用具有较大能量的单调分量作为基音检测的基础,能够提高基音检测在有噪环境下的准确率。
优选的,检测单元901具体针对语音信号帧中的每一个频谱幅值XA[k],若XA[k]同时大于XA[k-1]和XA[k+1],则将XA[k]作为单调分量,其中k为频谱序号索引。
优选的,检测单元901还用于在XA[k]同时大于XA[k-1]和XA[k+1]时,进一步判断XA[k]与所述语音信号帧中的最大频谱幅值的比值是否大于幅度阈值,若XA[k]与所述语音信号帧中的最大频谱幅值的比值大于幅度阈值,则执行将XA[k]作为单调分量的操作。
通过设置单调分量的幅度阈值可以有效排除这些伪单调分量。
优选的,幅度阈值的取值为不大于20%。作为一种优选实施例,幅度阈值的取值为5%。
优选的,频谱序号索引k的取值范围为大于索引下限int[flowN/fs],小于索引上限int[fhighN/fs],其中函数int[]表示向下舍入取整函数,N为语音信号帧长度,fs为语音信号的采样频率,flow为频率下限,fhigh为频率上限。
优选的,频率下限flow的取值范围是40-90Hz,频率上限fhigh的取值范围是1200-2000Hz。作为一种优选实施例,频率下限flow的取值是45Hz,频率上限fhigh的取值是1800Hz。从而可以检测集中语音主要能量的频率范围。
图10为本发明候选基频确定单元一个实施例的示意图。如图10所示,候选基频确定单元902包括第一选择模块1001、分频频率计算模块1002和第二选择模块1003,其中:
第一选择模块1001,用于选择频谱幅值最大的M个单调分量。
分频频率计算模块1002,用于对于所述M个单调分量中的每一个单调分量XA[k],分别计算相应的分频频率Tf[k]/mdiv,其中Tf[k]为单调分量XA[k]对应的频率,mdiv为正整数。
第二选择模块1003,用于将属于基频范围内的分频频率Tf[k]/mdiv作为候选基频放置到候选基频集合中。
优选的,基频范围的下限为50-100Hz,基频范围的上限为400-800Hz。作为一种优选实施例,基频范围的下限为70Hz,基频范围的上限为500Hz。
图11为本发明候选基频确定单元另一实施例的示意图。其中在图11所示实施例中,第一选择模块1101、分频频率计算模块1102和第二选择模块1103与图10所示实施例中的第一选择模块1001、分频频率计算模块1002和第二选择模块1003相同。此外,在图11所示实施例中,还包括合并模块1104,用于将候选基频集合中数值接近的候选基频合并。
在候选基频集合中,往往会有数个候选基频频率值十分接近。通过将这些候选基频合并,可以将候选基频集合变小,这可降低后续计算的工作量。
优选的,合并模块1104具体针对候选基频集合中的包含Kg个元素的子集合{Fcandidate[gi]},i=1,2,...,Kg,若满足
max { F candidate [ g 1 ] , . . . , F cadidate [ g K g ] } - min { F candidate [ g 1 ] , . . . , F candidate [ g K g ] } mean { F candidate [ g 1 ] , . . . , F candidate [ g K g ] } < r f _ thr ,
则将子集合{Fcandidate[gi]}中的全部基频合并为一个新候选基频,新候选基频的频率值为 mean { F candidate [ g 1 ] , . . . , F candidate [ g K g ] } ,
其中max()是获取最大值的函数,min()是获取最小值的函数,mean()是计算平均值的函数,rf_thr为频率相似阈值。
优选的,频率相似阈值rf_thr的取值大于0且不大于0.2,作为一个优选实施例,频率相似阈值rf_thr的取值为0.02。
优选的,可采用上述给出的实施例一至实施例四中的一个来计算单调分量XA[k]对应的频率Tf[k]。
图12为本发明和谐判据计算单元一个实施例的示意图。如图12所示,和谐判据计算单元具体包括谐音选择模块1201、判据计算模块1202,其中:
谐音选择模块1201,用于针对候选基频集合中的每个候选基频Fcandidate[g],如果在单调分量集合中存在一个包括KC个单调分量的子集合,所述子集合对应的频率集合为{Tf[c1],...,Tf[cKc]},同时满足
m div = int [ T f [ c 1 ] F candidate [ g ] + 0.5 ] = int [ T f [ c 2 ] F candidate [ g ] + 0.5 ] = . . . = int [ T f [ c K C ] F candidate [ g ] + 0.5 ]
max { | m div F candidate [ g ] - T f [ c 1 ] | m div F candidate [ g ] , . . . , | m div F candidate [ g ] - T f [ c K C ] | m div F candidate [ g ] } < r h _ thr ,
则将所述子集合中频率幅度最大的单调分量作为候选基频Fcandidate[g]的第mdiv-1次谐音Ag[mdiv-1],其中rh_thr为非和谐阈值。
判据计算模块1202,用于利用候选基频Fcandidate[g]的各次谐音计算候选基频Fcandidate[g]的和谐判据Jh[g],其中
J h [ g ] = &Sigma; m = 0 m M - 1 { F weight _ l ( A g [ m ] ) &times; F weight _ h ( A g [ m + 1 ] ) } ,
其中mM为最大的谐音次数,Fweieht_l()和Fweight_h()为加权函数,
F weight _ l ( x ) = x &lambda; l + &mu; l F weight _ h ( x ) = x &lambda; h + &mu; h ,
λll和λhh为加权系数。
优选的,非和谐阈值rh_thr的取值范围是大于0且小于0.15。作为一种优选实施例,rh_thr的取值为0.05。
优选的,加权系数λl和λh的取值范围是0<λlh<3,μl和μh的取值范围是-min(Ag[m])<μlh<max(Ag[m]),m=1,2,...,mM。作为一种优选实施例,λl=1,λh=1,μl=0,μh=0。
优选的,谐音选择模块1201具体在候选基频Fcandidate[g]的第m次谐音Ag[m]不存在时,且m≠0,则设定Ag[m]的幅度为第m-1次谐音Ag[m-1]的幅度的β倍;在候选基频Fcandidate[g]的第0次谐音Ag[0]不存在时,则设定Ag[0]的幅度为0。
优选的,β的范围是0<β<1。作为一种优选实施例,β的值为0.5。
图13为本发明和谐判据计算单元另一实施例的示意图。其中在图13所示实施例中,谐音选择模块1301和判据计算模块1302分别与图12所示实施例中涉及的谐音选择模块1201和判据计算模块1202相同。此外,和谐判据计算单元903还包括加权模块1303,用于在判据计算模块利用候选基频Fcandidate[g]的各次谐音计算候选基频Fcandidate[g]的和谐判据Jh[g]的步骤之后,判断候选基频Fcandidate[g]相对于前一语音信号帧的基频f0_old的偏差是否满足延续性条件,即:
| F candidate [ g ] - f 0 _ old | f 0 _ old < r f _ change ,
若候选基频Fcandidate[g]相对于前一语音信号帧的基频f0_old的偏差满足延续性条件,则将候选基频Fcandidate[g]的和谐判据Jh[g]乘以加权系数α,其中rf_change为偏差阈值。
优选的,加权系数α的取值范围为1.5≤α≤3,偏差阈值rf_change的取值范围为0.1≤rf_change≤0.3。作为一种优选实施例,加权系数α的取值为2,参数rf_change的取值为0.2。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims (24)

1.一种语音基音频率检测方法,其特征在于,包括:
检测语音信号帧中的单调分量;
利用频谱幅值最大的M个单调分量的频率确定候选基频,并将候选基频放置在候选基频集合中;
计算候选基频集合中每个候选基频的和谐判据;
将具有最大和谐判据的候选基频作为所述语音信号帧的基频。
2.根据权利要求1所述的方法,其特征在于:
检测语音信号帧中的单调分量的步骤包括:
针对语音信号帧中的每一个频谱幅值XA[k],若XA[k]同时大于XA[k-1]和XA[k+1],则将XA[k]作为单调分量,其中k为频谱序号索引。
3.根据权利要求2所述的方法,其特征在于:
若XA[k]同时大于XA[k-1]和XA[k+1],进一步判断XA[k]与所述语音信号帧中的最大频谱幅值的比值是否大于幅度阈值;
若XA[k]与所述语音信号帧中的最大频谱幅值的比值大于幅度阈值,则执行将XA[k]作为单调分量的步骤。
4.根据权利要求2或3所述的方法,其特征在于:
频谱序号索引k的取值范围为大于索引下限int[flowN/fs],小于索引上限int[fhighN/fs],其中函数int[]表示向下舍入取整函数,N为语音信号帧长度,fs为语音信号的采样频率,flow为频率下限,fhigh为频率上限。
5.根据权利要求1所述的方法,其特征在于:
利用频谱幅值最大的M个单调分量的频率确定候选基频,并将候选基频放置在候选基频集合中的步骤包括:
选择频谱幅值最大的M个单调分量;
对于所述M个单调分量中的每一个单调分量XA[k],分别计算相应的分频频率Tf[k]/mdiv,其中Tf[k]为单调分量XA[k]对应的频率,mdiv为正整数;
将属于基频范围内的分频频率Tf[k]/mdiv作为候选基频放置到候选基频集合中。
6.根据权利要求5所述的方法,其特征在于:
将属于基频范围内的分频频率Tf[k]/mdiv作为候选基频放置到候选基频集合中的步骤之后,还包括:
将候选基频集合中数值接近的候选基频合并。
7.根据权利要求6所述的方法,其特征在于:
将候选基频集合中数值接近的候选基频合并的步骤包括:
对于候选基频集合中的包含Kg个元素的子集合{Fcandidate[gi]},i=1,2,…,Kg,若满足
max { F candidate [ g 1 ] , . . . , F candidate [ g K g ] } - min { F candidate [ g 1 ] , . . . , F candidate [ g K g ] } mean { F candidate [ g 1 ] , . . . , F candidate [ g K g ] } < r f _ thr ,
则将子集合{Fcandidate[gi]}中的全部基频合并为一个新候选基频,新候选基频的频率值为
mean { F candidate [ g 1 ] , . . . , F candidate [ g K g ] } ,
其中max()是获取最大值的函数,min()是获取最小值的函数,mean()是计算平均值的函数,rf_thr为频率相似阈值。
8.根据权利要求5-7中任一项所述的方法,其特征在于:
单调分量XA[k]对应的频率Tf[k]为kfs/N,其中N为语音信号帧长度,fs为语音信号的采样频率。
9.根据权利要求5-7中任一项所述的方法,其特征在于:
单调分量XA[k]对应的频率Tf[k]为kffs/N,其中,
k f = k + X A [ k - 1 ] - X A [ k + 1 ] X A [ k - 1 ] + X A [ k + 1 ] - 2 X A [ k ] ,
N为语音信号帧长度,fs为语音信号的采样频率。
10.根据权利要求5-7中任一项所述的方法,其特征在于:
单调分量XA[k]对应的频率Tf[k]为kffs/N,其中,
若XA[k-1]<XA[k+1],则
k f = k + 1 2 - 1 2 X A [ k ] - X A [ k + 1 ] X A [ k ] - X A [ k - 1 ] ,
若XA[k-1]>XA[k+1],则
k f = k - 1 2 + 1 2 X A [ k ] - X A [ k - 1 ] X A [ k ] - X A [ k + 1 ] ,
N为语音信号帧长度,fs为语音信号的采样频率。
11.根据权利要求5-7中任一项所述的方法,其特征在于:
单调分量XA[k]对应的频率Tf[k]为
T f [ k ] = f s N k + f s L res [ X P - X P &prime; 2 &pi; - k L N ] ,
其中XP为语音信号帧的频谱相位,XP’为语音信号帧的L点采样前的频谱相位,res[]为取整残差函数,res[x]=x-int[x+0.5]。
12.根据权利要求1所述的方法,其特征在于:
计算候选基频集合中每个候选基频的和谐判据的步骤包括:
对于候选基频集合中的每个候选基频Fcandidate[g],如果在单调分量集合中存在一个包括KC个单调分量的子集合,所述子集合对应的频率集合为{Tf[c1],…,Tf[cKc]},同时满足
m div = int [ T f [ c 1 ] F candidate [ g ] + 0.5 ] = int [ T f [ c 2 ] F candidate [ g ] + 0.5 ] = . . . = int [ T f [ c K C ] F candidate [ g ] + 0.5 ]
max { | m div F candidate [ g ] - T f [ c 1 ] | m div F candidate [ g ] , . . . , | m div F candidate [ g ] - T f [ c K C ] | m div F candidate [ g ] } < r h _ thr ,
则将所述子集合中频率幅度最大的单调分量作为候选基频Fcandidate[g]的第mdiv-1次谐音Ag[mdiv-1],其中rh_thr为非和谐阈值;
利用候选基频Fcandidate[g]的各次谐音计算候选基频Fcandidate[g]的和谐判据Jh[g],其中
J h [ g ] = &Sigma; m = 0 m M - 1 { F weight _ l ( A g [ m ] ) &times; F weight _ h ( A g [ m + 1 ] ) } ,
其中mM为最大的谐音次数,Fweight_l()和Fweight_h()为加权函数,
F weight _ l ( x ) = x &lambda; l + &mu; l F weight _ h ( x ) = x &lambda; h + &mu; h ,
λll和λhk为加权系数。
13.根据权利要求12所述的方法,其特征在于:
若候选基频Fcandidate[g]的第m次谐音Ag[m]不存在,且m≠0,则设定Ag[m]的幅度为第m-1次谐音Ag[m-1]的幅度的β倍;
若候选基频Fcandidate[g]的第0次谐音Ag[0]不存在,则设定Ag[0]的幅度为0。
14.根据权利要求12或13所述的方法,其特征在于:
利用候选基频Fcandidate[g]的各次谐音计算候选基频Fcandidate[g]的和谐判据Jh[g]的步骤之后,还包括:
判断候选基频Fcandidate[g]相对于前一语音信号帧的基频f0_old的偏差是否满足延续性条件,即:
| F candidate [ g ] - f 0 _ old | f 0 _ old < r f _ change ,
若候选基频Fcandidate[g]相对于前一语音信号帧的基频f0_old的偏差满足延续性条件,则将候选基频Fcandidate[g]的和谐判据Jh[g]乘以加权系数α,其中rf_change为偏差阈值。
15.一种语音基音频率检测装置,其特征在于,包括:
检测单元,用于检测语音信号帧中的单调分量;
候选基频确定单元,用于利用频谱幅值最大的M个单调分量的频率确定候选基频,并将候选基频放置在候选基频集合中;
和谐判据计算单元,用于计算候选基频集合中每个候选基频的和谐判据;
基频选择单元,用于将具有最大和谐判据的候选基频作为所述语音信号帧的基频。
16.根据权利要求15所述的装置,其特征在于:
检测单元具体针对语音信号帧中的每一个频谱幅值XA[k],若XA[k]同时大于XA[k-1]和XA[k+1],则将XA[k]作为单调分量,其中k为频谱序号索引。
17.根据权利要求16所述的装置,其特征在于:
检测单元还用于在XA[k]同时大于XA[k-1]和XA[k+1]时,进一步判断XA[k]与所述语音信号帧中的最大频谱幅值的比值是否大于幅度阈值,若XA[k]与所述语音信号帧中的最大频谱幅值的比值大于幅度阈值,则执行将XA[k]作为单调分量的操作。
18.根据权利要求16或17所述的装置,其特征在于:
频谱序号索引k的取值范围为大于索引下限int[flowN/fs],小于索引上限int[fhighN/fs],其中函数int[]表示向下舍入取整函数,N为语音信号帧长度,fs为语音信号的采样频率,flow为频率下限,fhigh为频率上限。
19.根据权利要求15所述的装置,其特征在于:
候选基频确定单元包括第一选择模块、分频频率计算模块和第二选择模块,其中:
第一选择模块,用于选择频谱幅值最大的M个单调分量;
分频频率计算模块,用于对于所述M个单调分量中的每一个单调分量XA[k],分别计算相应的分频频率Tf[k]/mdiv,其中Tf[k]为单调分量XA[k]对应的频率,mdiv为正整数;
第二选择模块,用于将属于基频范围内的分频频率Tf[k]/mdiv作为候选基频放置到候选基频集合中。
20.根据权利要求19所述的装置,其特征在于:
候选基频确定单元还包括合并模块,用于将候选基频集合中数值接近的候选基频合并。
21.根据权利要求20所述的装置,其特征在于:
合并模块具体针对候选基频集合中的包含Kg个元素的子集合{Fcandidate[gi]},i=1,2,...,Kg,若满足
max { F candidate [ g 1 ] , . . . , F candidate [ g K g ] } - min { F candidate [ g 1 ] , . . . , F candidate [ g K g ] } mean { F candidate [ g 1 ] , . . . , F candidate [ g K g ] } < r f _ thr ,
则将子集合{Fcandidate[gi]}中的全部基频合并为一个新候选基频,新候选基频的频率值为
mean { F candidate [ g 1 ] , . . . , F candidate [ g K g ] } ,
其中max()是获取最大值的函数,min()是获取最小值的函数,mean()是计算平均值的函数,rf_thr为频率相似阈值。
22.根据权利要求15所述的装置,其特征在于:
和谐判据计算单元具体包括谐音选择模块、判据计算模块,其中:
谐音选择模块,用于针对候选基频集合中的每个候选基频Fcandidate[g],如果在单调分量集合中存在一个包括KC个单调分量的子集合,所述子集合对应的频率集合为{Tf[c1],...,Tf[cKc]},同时满足
m div = int [ T f [ c 1 ] F candidate [ g ] + 0.5 ] = int [ T f [ c 2 ] F candidate [ g ] + 0.5 ] = . . . = int [ T f [ c K C ] F candidate [ g ] + 0.5 ]
max { | m div F candidate [ g ] - T f [ c 1 ] | m div F candidate [ g ] , . . . , | m div F candidate [ g ] - T f [ c K C ] | m div F candidate [ g ] } < r h _ thr ,
则将所述子集合中频率幅度最大的单调分量作为候选基频Fcandidate[g]的第mdiv-1次谐音Ag[mdiv-1],其中rh_thr为非和谐阈值;
判据计算模块,用于利用候选基频Fcandidate[g]的各次谐音计算候选基频Fcandidate[g]的和谐判据Jh[g],其中
J h [ g ] = &Sigma; m = 0 m M - 1 { F weight _ l ( A g [ m ] ) &times; F weight _ h ( A g [ m + 1 ] ) } ,
其中mM为最大的谐音次数,Fweight_l()和Fweight_h()为加权函数,
F weight _ l ( x ) = x &lambda; l + &mu; l F weight _ h ( x ) = x &lambda; h + &mu; h ,
λll和λhh为加权系数。
23.根据权利要求22所述的装置,其特征在于:
谐音选择模块具体在候选基频Fcandidate[g]的第m次谐音Ag[m]不存在时,且m≠0,则设定Ag[m]的幅度为第m-1次谐音Ag[m-1]的幅度的β倍;在候选基频Fcandidate[g]的第0次谐音Ag[0]不存在时,则设定Ag[0]的幅度为0。
24.根据权利要求22或23所述的装置,其特征在于:
和谐判据计算单元还包括加权模块,用于在判据计算模块利用候选基频Fcandidate[g]的各次谐音计算候选基频Fcandidate[g]的和谐判据Jh[g]的步骤之后,判断候选基频Fcandidate[g]相对于前一语音信号帧的基频f0_old的偏差是否满足延续性条件,即:
| F candidate [ g ] - f 0 _ old | f 0 _ old < r f _ change ,
若候选基频Fcandidate[g]相对于前一语音信号帧的基频f0_old的偏差满足延续性条件,则将候选基频Fcandidate[g]的和谐判据Jh[g]乘以加权系数α,其中rf_change为偏差阈值。
CN201210427486.8A 2012-10-31 2012-10-31 语音基音频率检测方法和装置 Active CN103794222B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210427486.8A CN103794222B (zh) 2012-10-31 2012-10-31 语音基音频率检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210427486.8A CN103794222B (zh) 2012-10-31 2012-10-31 语音基音频率检测方法和装置

Publications (2)

Publication Number Publication Date
CN103794222A true CN103794222A (zh) 2014-05-14
CN103794222B CN103794222B (zh) 2017-02-22

Family

ID=50669808

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210427486.8A Active CN103794222B (zh) 2012-10-31 2012-10-31 语音基音频率检测方法和装置

Country Status (1)

Country Link
CN (1) CN103794222B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106205638A (zh) * 2016-06-16 2016-12-07 清华大学 一种面向音频事件检测的双层基音特征提取方法
CN106373594A (zh) * 2016-08-31 2017-02-01 华为技术有限公司 一种音调检测方法及装置
CN106776664A (zh) * 2015-11-25 2017-05-31 北京搜狗科技发展有限公司 一种基频序列处理方法及装置
CN107025911A (zh) * 2016-01-29 2017-08-08 重庆工商职业学院 基于粒子群优化的基音频率检测方法
CN109074814A (zh) * 2017-03-07 2018-12-21 华为技术有限公司 一种噪声检测方法及终端设备
CN109243479A (zh) * 2018-09-20 2019-01-18 广州酷狗计算机科技有限公司 音频信号处理方法、装置、电子设备及存储介质
CN110379438A (zh) * 2019-07-24 2019-10-25 山东省计算中心(国家超级计算济南中心) 一种语音信号基频检测与提取方法及系统
CN112885374A (zh) * 2021-01-27 2021-06-01 吴怡然 一种基于频谱分析的声音音准判断方法及系统
CN113129921A (zh) * 2021-04-16 2021-07-16 北京市理化分析测试中心 用于检测语音信号中的基音的频率的方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1328680A (zh) * 1998-10-29 2001-12-26 保罗-里德-史密斯-吉塔尔斯股份合作有限公司 快速找到基音的方法
US20040073420A1 (en) * 2002-10-10 2004-04-15 Mi-Suk Lee Method of estimating pitch by using ratio of maximum peak to candidate for maximum of autocorrelation function and device using the method
CN101556795A (zh) * 2008-04-09 2009-10-14 展讯通信(上海)有限公司 计算语音基音频率的方法及设备
CN101950560A (zh) * 2010-09-10 2011-01-19 中国科学院声学研究所 一种连续语音声调识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1328680A (zh) * 1998-10-29 2001-12-26 保罗-里德-史密斯-吉塔尔斯股份合作有限公司 快速找到基音的方法
US20040073420A1 (en) * 2002-10-10 2004-04-15 Mi-Suk Lee Method of estimating pitch by using ratio of maximum peak to candidate for maximum of autocorrelation function and device using the method
CN101556795A (zh) * 2008-04-09 2009-10-14 展讯通信(上海)有限公司 计算语音基音频率的方法及设备
CN101950560A (zh) * 2010-09-10 2011-01-19 中国科学院声学研究所 一种连续语音声调识别方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776664A (zh) * 2015-11-25 2017-05-31 北京搜狗科技发展有限公司 一种基频序列处理方法及装置
CN107025911B (zh) * 2016-01-29 2019-03-12 重庆工商职业学院 基于粒子群优化的基音频率检测方法
CN107025911A (zh) * 2016-01-29 2017-08-08 重庆工商职业学院 基于粒子群优化的基音频率检测方法
CN106205638A (zh) * 2016-06-16 2016-12-07 清华大学 一种面向音频事件检测的双层基音特征提取方法
CN106205638B (zh) * 2016-06-16 2019-11-08 清华大学 一种面向音频事件检测的双层基音特征提取方法
CN106373594B (zh) * 2016-08-31 2019-11-26 华为技术有限公司 一种音调检测方法及装置
CN106373594A (zh) * 2016-08-31 2017-02-01 华为技术有限公司 一种音调检测方法及装置
CN109074814A (zh) * 2017-03-07 2018-12-21 华为技术有限公司 一种噪声检测方法及终端设备
CN109074814B (zh) * 2017-03-07 2023-05-09 华为技术有限公司 一种噪声检测方法及终端设备
CN109243479A (zh) * 2018-09-20 2019-01-18 广州酷狗计算机科技有限公司 音频信号处理方法、装置、电子设备及存储介质
CN110379438B (zh) * 2019-07-24 2020-05-12 山东省计算中心(国家超级计算济南中心) 一种语音信号基频检测与提取方法及系统
CN110379438A (zh) * 2019-07-24 2019-10-25 山东省计算中心(国家超级计算济南中心) 一种语音信号基频检测与提取方法及系统
CN112885374A (zh) * 2021-01-27 2021-06-01 吴怡然 一种基于频谱分析的声音音准判断方法及系统
CN113129921A (zh) * 2021-04-16 2021-07-16 北京市理化分析测试中心 用于检测语音信号中的基音的频率的方法和装置
CN113129921B (zh) * 2021-04-16 2022-10-04 北京市理化分析测试中心 用于检测语音信号中的基音的频率的方法和装置

Also Published As

Publication number Publication date
CN103794222B (zh) 2017-02-22

Similar Documents

Publication Publication Date Title
CN103794222A (zh) 语音基音频率检测方法和装置
Deliyski Acoustic model and evaluation of pathological voice production.
KR100744352B1 (ko) 음성 신호의 하모닉 성분을 이용한 유/무성음 분리 정보를추출하는 방법 및 그 장치
EP1309964B1 (en) Fast frequency-domain pitch estimation
CN101968957B (zh) 一种噪声条件下的语音检测方法
US9454976B2 (en) Efficient discrimination of voiced and unvoiced sounds
Vasilakis et al. Voice pathology detection based eon short-term jitter estimations in running speech
CN103646649A (zh) 一种高效的语音检测方法
Drugman et al. Maximum voiced frequency estimation: Exploiting amplitude and phase spectra
EP2927906B1 (en) Method and apparatus for detecting voice signal
CN103235953B (zh) 一种光纤分布式扰动传感器模式识别的方法
CN104091603A (zh) 基于基频的端点检测系统及其计算方法
KR101762723B1 (ko) 피치 주기의 정확도를 검출하는 방법 및 장치
CN105336344B (zh) 杂音检测方法和装置
CN103310800B (zh) 一种抗噪声干扰的浊语音检测方法及系统
Hagmüller et al. Poincaré pitch marks
Patil et al. Effectiveness of Teager energy operator for epoch detection from speech signals
Bouzid et al. Voice source parameter measurement based on multi-scale analysis of electroglottographic signal
CN102737645A (zh) 一种语音信号的基音周期估计算法
US8995230B2 (en) Method of extracting zero crossing data from full spectrum signals
Li et al. A pitch estimation algorithm for speech in complex noise environments based on the radon transform
CN103839544B (zh) 语音激活检测方法和装置
CN1971707B (zh) 一种进行基音周期估计和清浊判决的方法及装置
Kadiri et al. Speech polarity detection using strength of impulse-like excitation extracted from speech epochs
Martin Automatic detection of voice creak

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20180402

Address after: The 300456 Tianjin FTA test area (Dongjiang Bonded Port) No. 6865 North Road, 1-1-1802-7 financial and trade center of Asia

Patentee after: Xinji Lease (Tianjin) Co.,Ltd.

Address before: 201203 Shanghai city Zuchongzhi road Pudong New Area Zhangjiang hi tech park, Spreadtrum Center Building 1, Lane 2288

Patentee before: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20140514

Assignee: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

Assignor: Xinji Lease (Tianjin) Co.,Ltd.

Contract record no.: 2018990000196

Denomination of invention: Method and apparatus for detecting voice fundamental tone frequency

Granted publication date: 20170222

License type: Exclusive License

Record date: 20180801

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221017

Address after: 201203 Shanghai city Zuchongzhi road Pudong New Area Zhangjiang hi tech park, Spreadtrum Center Building 1, Lane 2288

Patentee after: SPREADTRUM COMMUNICATIONS (SHANGHAI) Co.,Ltd.

Address before: 300456 1-1-1802-7, north area of financial and Trade Center, No. 6865, Asia Road, Tianjin pilot free trade zone (Dongjiang Bonded Port Area)

Patentee before: Xinji Lease (Tianjin) Co.,Ltd.