CN102842305A - 一种基音检测的方法和装置 - Google Patents

一种基音检测的方法和装置 Download PDF

Info

Publication number
CN102842305A
CN102842305A CN2011101700750A CN201110170075A CN102842305A CN 102842305 A CN102842305 A CN 102842305A CN 2011101700750 A CN2011101700750 A CN 2011101700750A CN 201110170075 A CN201110170075 A CN 201110170075A CN 102842305 A CN102842305 A CN 102842305A
Authority
CN
China
Prior art keywords
frequency
spectrum
parameter value
ratio
amplitude
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011101700750A
Other languages
English (en)
Other versions
CN102842305B (zh
Inventor
齐峰岩
苗磊
阿里斯·塔勒布
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honor Device Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201110170075.0A priority Critical patent/CN102842305B/zh
Priority to EP12802425.4A priority patent/EP2662854A1/en
Priority to PCT/CN2012/077456 priority patent/WO2012175054A1/zh
Priority to KR1020137021767A priority patent/KR20130117855A/ko
Priority to JP2013556963A priority patent/JP2014507689A/ja
Publication of CN102842305A publication Critical patent/CN102842305A/zh
Priority to US14/136,130 priority patent/US20140142931A1/en
Application granted granted Critical
Publication of CN102842305B publication Critical patent/CN102842305B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Abstract

本发明公开了一种基音检测的方法和装置,属于语音与音频领域。该基音检测的方法,包括:在时域对所述语音信号进行基音检测,得到初始基音周期;将所述语音信号转换到频域,获得语音信号的频谱,该频谱包括频谱的幅度谱;根据初始基音周期和所述语音信号的频谱提取特征参数;根据初始基音周期和特征参数进行精细基音周期检测,得到精细基音周期。

Description

一种基音检测的方法和装置
技术领域
本发明涉及一种基音检测的方法和装置,尤其涉及一种高精确度、运算复杂度较低的基音检测方法和装置。
背景技术
在数字通信领域,语音、图像、音频、视频的传输有着非常广泛的应用需求,如手机通话、音视频会议、广播电视、多媒体娱乐等。为了降低音视频信号存储或者传输过程中占用的资源,音视频压缩编码技术应运而生。在语音与音频信号处理中,基音检测是各种语音与音频实际应用中的关键技术之一,在语音编码,语音识别,音调检索中基音都是重要的提取参数,基音检测的准确性直接影响最后编码的性能。对于基音周期的检测,现有技术中,一般采用两种方法:
一种方法是时域法,通过对语音信号进行预处理后,在时域对输入信号进行分析和计算,确定基音周期。
因为语音信号在时域内对语音信号进行基音检测,大多采用的是相关函数法,只在时域内对语音信号的相关值进行检测,而语音信号在真正基音周期整数倍上的相关值都会很大,很难进行准确区分检测,容易出现基音周期加倍错误,从而降低了基音参数检测的精度。
另一种方法是频域法,是将时域信号转换到频域,并在频域上进行峰值检测;根据检测到的峰值和基音跟踪算法,得到基音频率;对该基音频率进行相应的转换,获得基音周期。
在此过程中,将时域信号转换到频域并在频域进行基音搜索的运算复杂度较高,在实际应用中很难被采用。
发明内容
本发明的实施例提供一种精确度高、运算复杂度较低的基音检测方法和装置。
为达到上述目的,本发明的实施例采用如下技术方案:
一种基音检测的方法,包括:
在时域对所述语音信号进行基音检测,得到初始基音周期;
将所述语音信号转换到频域,获得语音信号的频谱,该频谱包括频谱的幅度谱;
根据初始基音周期和所述语音信号的频谱提取特征参数;
根据初始基音周期和特征参数进行精细基音周期检测,得到精细基音周期。
一种基音检测的装置,包括:
初始基音周期获取模块:用于在时域对所述语音信号进行基音检测,得到初始基音周期;
时频转换模块:用于将所述语音信号转换到频域,获得语音信号的频谱,该频谱包括频谱的幅度谱;
特征参数提取模块:用于根据初始基音周期和所述语音信号的频谱提取特征参数;
精细基音周期获取模块:用于根据初始基音周期和特征参数进行精细基音周期检测,得到精细基音周期。
本发明实施例提供的一种基音检测的方法和装置,根据在时域上获取的初始基音周期和频域中所提取的特征参数对基音周期进行检测,避免基音周期加倍错误的出现,提高了基音周期检测的精确度。
附图说明
图1为本发明实施例一种基音检测的方法的流程图;
图2为为本发明实施例一种基音检测的方法语音信息加窗的结构示意图;
图3为本发明实施例一种基音检测的方法时频转换的流程图;
图4为本发明实施例一种基音检测的方法根据频点平均幅度与频点幅度的比值参数值和平均幅度参数值对三倍频进行倍频检测的流程图;
图5为本发明实施例一种基音检测的方法根据频点平均幅度与频点幅度的比值参数值和平均幅度参数值对二倍频进行倍频检测的流程图;
图6为本发明实施例一种基音检测的方法根据频点平均幅度与频点幅度的比值参数值和缓存数据对三倍频进行倍频检测的流程图;
图7为本发明实施例一种基音检测的方法根据频点平均幅度与频点幅度的比值参数值和缓存数据对二倍频进行倍频检测的流程图;
图8为本发明实施例一种基音检测的方法对幅度谱进行插值的流程图;
图9为本发明实施例一种基音检测的方法对语音信号进行补零的流程图;
图10为本发明实施例一种基音检测的方法对全频域进行检测的流程图。
图11为本发明实施例一种基音检测装置的结构示意图;
图12为本发明实施例2一种基音检测的装置时频转换模块的结构示意图;
图13为本发明实施例3一种基音检测的装置时频转换模块的结构示意图。
具体实施方式
数字信号处理领域,音频编解码器、视频编解码器广泛应用于各种电子设备中,例如:移动电话,无线装置,个人数据助理(PDA),手持式或便携式计算机,GPS接收机/导航器,照相机,音频/视频播放器,摄像机,录像机,监控设备等。通常,这类电子设备中包括音频编码器或音频解码器,音频编码器或者解码器可以直接由数字电路或芯片例如DSP(digital signalprocessor)实现,或者由软件代码驱动处理器执行软件代码中的流程而实现。音频编码器中通常会有基音检测的流程。下面结合附图对本发明实施例一种基音检测的方法进行详细描述。
实施例1
一种基音检测的方法,如图1所示,包括:
步骤100、在时域对所述语音信号进行基音检测,得到初始基音周期
在时域中,可根据感知加权后的语音信号进行开环基音检测,得到初始基因周期T′。
步骤101、对所述语音信号进行预处理。
对语音信号s(n)进行预处理,例如预加重处理,以加重语音信号中的高频成分,提高语音编码的精确度。完成对于语音信号的预处理后,得到预处理语音信号spre(n)。为将所述语音信号转换到频域,使基音检测更加精确,则需要对该语音信号进行前期处理。
步骤102、为所述预处理后的帧信号加分析窗。
根据完成预处理的语音信号spre(n),为所述预处理后的帧信号加分析窗,该分析窗函数为:
w FFT ( n ) = 0.5 - 0.5 cos ( 2 πn L FFT ) = sin ( πn L FFT ) , n=0,1,2,...,LFFT-1,其中LFFT为分析窗长度。
第一分析窗加在当前帧上,而第二分析窗加在当前帧的后半帧和未来帧的前半帧上,如图2所示。
第一分析窗函数为:s[0] wnd(n)=wFFT(n)spre(n),n=0,1,2,...,LFFT-1
第二分析窗函数为:s[1] wnd(n)=wFFT(n)spre(n+LFFT/2),n=0,1,2,...,LFFT-1
步骤103、将所述语音信号转换到频域,获得语音信号的频谱,该频谱包括频谱的幅度谱。
为在频域中对语音信号进行检测,则需要获取语音信号在频域中的频谱,该频谱包括频谱的幅度谱,如图3所示,该步骤的一个实施例包括:。
步骤300、对所述加分析窗后的语音信号进行频域变换,得到频谱系数。
为获取频谱系数,对加窗后的一帧语音信号进行傅立叶变换,例如帧长LFFT为256,在实际应用中,就可以进行256点的傅立叶变换,得到相应的频谱系数,该频谱系数函数为:
Figure BDA0000070385040000042
k=0,1,2,...,K-1,K≤LFFT/2,N=LFFT,其中频谱系数为复数,包括实部和虚部。
步骤301、根据频谱系数,计算出能量谱。
取频谱系数中的实部和虚部进行平方和运算,计算出能量谱,该能量谱函数E(k)为:
Figure BDA0000070385040000043
k=0,1,2,...,K-1,其中XR(k)和XI(k)分别表示实部和虚部。
步骤302、根据当前帧和前一帧对能量谱进行加权处理,使能量谱平滑。
为进一步提高基音周期检测的精确度,可以根据当前帧和前一帧对能量谱进行加权,得到平滑能量谱,该平滑能量谱函数为:
Figure BDA0000070385040000044
k=0,1,2,...,K-1,0<α≤1,其中E[0](k)为根据第一分析窗生成的能量谱,E[1](k)为根据第二分析窗生成的能量谱,α的值代表E[0](k)、E[1](k)在
Figure BDA0000070385040000045
所占的比例,根据经验进行选取,例如可设置为0.5。
步骤303、根据能量谱,计算出频谱的幅度谱。
对能量谱函数进行开方运算,可得到幅度谱函数,在计算幅度谱函数的过程中,为防止所述幅度谱函数的值过大,对幅度谱函数进行对数运算,压缩幅度范围;当平滑能量谱的函数值为0时,其对数值无限趋近于负无穷,在运算过程中会发生溢出现象,故设置一个较小的正数ε防止对数值溢出。所述幅度谱函数为:
Figure BDA0000070385040000051
k=0,1,2,...,K-1,其中θ和η为常数,可根据设置该常数的大小来调整频谱的幅度范围,例如可设置为θ=2η=log10(4/L2 FFT)。
步骤104、根据初始基音周期和所述语音信号的频谱提取特征参数。
对初始基音周期T′进行倒数运算,可得到基频f′,并对该基频f′进行倍数运算可得到倍频,例如2f′和f′/2。
所述特征参数,包括:平均幅度参数,平均幅度与频点幅度的比值参数,峰值位置参数。
为对精细基音周期进行检测,以避免基音周期加倍错误的出现,则需要设置函数获取幅度大小和幅度谱的起伏特性来确定精细基音周期,例如设置的函数为:
Figure BDA0000070385040000052
k=f′/3,f′/2,f′,2f′,3f′
Figure BDA0000070385040000053
k=f′/3,f′/2,f′,2f′,3f′
其中
Figure BDA0000070385040000054
为平均幅度函数,S(k)为幅度谱函数,f′为初始基音周期T′对应在频域的频点,检测时
Figure BDA0000070385040000055
的值代表以待测频点k为中心,2f′-1范围内的频点的平均幅度。r(k)为平均幅度与待测频点幅度的比值函数。
检测时,将基频、二倍频和三倍频的值代入函数,获取基频特征参数
Figure BDA0000070385040000056
r(f′),二倍频特征参数
Figure BDA0000070385040000057
r(2f′),三倍频特征参数
Figure BDA0000070385040000058
r(3f′)。
步骤105、根据初始基音周期和特征参数进行精细基音周期检测,得到精细基音周期。
根据初始基音周期和特征参数,对语音信号进行倍频检测。在实际检测中,基音周期加倍错误大部分发生在频域的基频点、二倍频点和三倍频点的位置,故当要求检测的精度不高时,为降低检测的复杂度,可只对基频、二倍频和三倍频进行检测。
当根据频点平均幅度与频点幅度的比值参数值和平均幅度参数值对三倍频检测,如图4所示,包括:
步骤400、判断基频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值是否大于第一默认值。
根据平均幅度参数
Figure BDA0000070385040000061
平均幅度与频点幅度的比值参数r(k),可知,被测频点的幅度值相对于平均幅度参数越大,则r(k)值越小,说明该频点处有峰值,幅度谱的起伏特性明显。
检测时,在真实基音频率的位置,会出现峰值,此时该频点处的幅度值S(k)大于其周围2f′-1范围内的平均幅度参数的值
Figure BDA0000070385040000063
则平均幅度与频点幅度的比值参数的值r(k)较小。故根据基频点、二倍频点和三倍频点的
Figure BDA0000070385040000064
和r(k),可判定该已获取的基音周期是否发生基音周期加倍错误。
在做倍频检测时,首先判断3f′位置是否可能为精细基音频率,为使倍频的检测更加准确,则设置第一默认值δ1,只有当r(f′)和r(3f′)的比值大于δ1时,3f′位置才可能为精细基音频率,该第一默认值δ1可根据经验设置为1.22。
步骤401、如果基频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值大于第一默认值,则判断二倍频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值是否大于第二默认值。
当r(f′)和r(3f′)的比值大于第一默认值δ1时,则判断r(2f′)和r(3f′)的比值是否大于第二默认值λ1,该第二默认值λ1可根据经验设置为1.22。
步骤402、如果二倍频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值大于第二默认值,则判断三倍频点平均幅度参数值与基频点平均幅度参数值的差值是否大于第三默认值。当r(2f′)和r(3f′)的比值大于第二默认值λ1,则判断
Figure BDA0000070385040000065
Figure BDA0000070385040000066
的差是否大于第三默认值γ1,该第三默认值γ1可根据经验设置为0.6。
步骤403、如果三倍频点平均幅度参数值与基频点平均幅度参数值的差值大于第三默认值,则确定三倍频为所需要的精细基音频率。
当同时满足上述三个条件时,则可以判断在基频、二倍频和三倍频中,三倍频为精细基音频率,根据该精细基音频率可确定所需要精细基音周期。
如果三倍频不是所需要的精细基音频率,则根据频点平均幅度与频点幅度的比值参数值和平均幅度参数值对二倍频检测,如图5所示,包括:
步骤500、判断基频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值是否大于第七默认值。
与检测基音周期三倍错误类似,判断r(f′)和r(2f′)比值是否大于δ2,该第七默认值δ2可根据经验设置为1.22。
步骤501、如果基频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值大于第七默认值,则判断三倍频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值是否大于第八默认值。
当r(f′)和r(2f′)的比值大于第七默认值δ2时,则继续判断r(3f′)和r(2f′)的比值是否大于第八默认值λ2,该第八默认值λ2可根据经验设置为1.22。
步骤502、如果三倍频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值大于第八默认值,则进一步判断二倍频点平均幅度参数值与基频点平均幅度参数值的差值是否大于第九默认值。
当r(3f′)和r(2f′)的比值大于第八默认值λ2,则继续判断
Figure BDA0000070385040000071
Figure BDA0000070385040000072
的差是否大于第九默认值γ2,该第九默认值γ2可根据经验设置为0.4。
步骤503、如果二倍频点平均幅度参数值与基频点平均幅度参数值的差值大于第九默认值,则确定二倍频为所需要的精细基音频率。
当同时满足上述三个条件时,则可以判断在基频、二倍频和三倍频中,二倍频为精细基音频率,根据该精细基音频率可确定所需要精细基音周期。
实施例2
在进行倍频检测时,还可以根据频点平均幅度与频点幅度的比值参数值和缓存中所存储的当前帧之前倍频的判断结果进行判断,如图6所示,对三倍频检测,包括:
步骤600、判断基频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值是否大于第四默认值。
判断r(f′)和r(3f′)比值是否大于δ3,该第四默认值δ3可根据经验设置为1.05。
步骤601、如果基频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值大于第四默认值,则判断二倍频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值是否大于第五默认值。
当r(f′)和r(3f′)的比值大于第四默认值δ3时,则判断r(2f′)和r(3f′)的比值是否大于第五默认值λ3,该第五默认值λ3可根据经验设置为1.05。
步骤602、如果二倍频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值大于第五默认值,则判断前一帧是否发生基音周期三倍错误。
当二倍频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值大于第五默认值λ3时,则根据缓存中所存储的前一帧标记,判断前一帧是否已经发生三倍周期加倍错误。
步骤603、如果前一帧发生基音周期三倍错误,则判断当前帧之前发生基音周期三倍的次数是否大于第六默认值。
当确定前一帧中已发生三倍周期加倍错误,则进一步判断在当前帧之前发生基音周期三倍错误的次数是否大于第六默认值c1。如对当前帧的前10帧进行判断,连续发生基音周期三倍错误的次数是否大于第六默认值c1。该第六默认值c1,如果是根据整帧进行判断,则可设定为3,如果根据半帧判断,则可设定为6。
步骤604、如果当前帧之前发生基音周期三倍错误的次数大于第六默认值,则确定三倍频为所需要的精细基音周期。
当3f′频点所在帧的前一帧已发生基音周期三倍错误,并且3f′频点所在帧的前10帧中,缓存中记录连续发生了3次基音周期三倍错误,则确定发生基音周期三倍错误,真实基音频率出现在3f′附近,3f′为所需要的精细基音频率。
如果三倍频不是所需要的精细基音频率,则根据频点平均幅度与频点幅度的比值参数值和缓存数据对二倍频检测,如图7所示,包括:
步骤700、判断基频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值是否大于第十默认值。
判断r(f′)和r(2f′)比值是否大于δ4,该第十默认值δ4可根据经验设置为1.05。
步骤701、如果基频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值大于第十默认值,则判断三倍频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值是否大于第十一默认值。
当r(f′)和r(2f′)的比值大于第十默认值δ4时,则判断r(3f′)和r(2f′)的比值是否大于第十一默认值λ4,该第十一默认值λ4可根据经验设置为1.05。
步骤702、如果三倍频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值大于第十一默认值,则判断前一帧是否发生基音周期二倍错误
当三倍频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值大于第十一默认值λ4时,则根据缓存中所存储的前一帧标记,判断前一帧是否已经发生二倍周期加倍错误。
步骤703、如果前一帧发生基音周期二倍错误,则判断当前帧之前发生基音周期二倍的次数是否大于第十二默认值。
当确定前一帧中已发生三倍周期加倍错误,则进一步判断在当前帧之前发生基音周期二倍错误的次数是否大于第十二默认值。如对当前帧的前10帧进行判断,连续发生基音周期二倍错误的次数是否大于第十二默认值c2。该第十二默认值c2,如果是根据整帧进行判断,则可设定为3,如果根据半帧判断,则可设定为6。
步骤704、如果当前帧之前发生基音周期二倍的次数大于第十二默认值,则确定二倍频为所需要检测的精细基音频率。
当2f′频点所在帧的前一帧已发生基音周期二倍错误,并且2f′频点所在帧的前10帧中,缓存中记录连续发生了3次基音周期二倍错误,则确定发生基音周期二倍错误,真实基音频率发生在2f′附近,2f′为所需要的精细基音频率。
当倍频检测完成后,将检测结果保存到缓存的前一帧标记中,例如当判断当前帧发生基音周期二倍错误时,则在前一帧标记中记录发生了基音周期二倍错误,并记录连续发生的次数,用于对下一帧数据的检测。
实施例3
在对基音周期进行倍频检测时,如实施例1和实施例2所述,可根据频点的平均幅度与频点幅度的比值参数值和平均幅度参数值进行判断和根据频点平均幅度与频点幅度的比值参数值和缓存数据进行判断两种方式对精细基音频率进行判断。在实际中进行判断时,根据或逻辑对两种判断方式的判断条件进行组合,当满足一种方式的判断条件时,便可以确定该频点为所需要的精细基音频率。
例如,对基音周期三倍错误进行判断时,只要满足根据频点平均幅度与频点幅度的比值参数值和平均幅度参数值进行判断的判断条件,便可以确定该三倍频为所需要的精细基音频率,或者只要满足根据平均幅度与频点幅度的比值参数值和缓存中所存储的当前帧之前倍频的判断结果进行判断的判断条件,也可以确定该三倍频为所需要的精细基音频率。
实施例4
为使倍频检测更加精确,则需要获取频域中的高密度幅度谱,例如在原有的幅度谱中存在256个频点,在各个频点间插入频点可获取所述幅度谱的高密度幅度谱。
在步骤303后,根据已获取的幅度谱进行插值,如图8所示,包括:
步骤800、为所述频谱的幅度谱进行插值,获取所述语音信号的高密度幅度谱。
根据插值算法在频域内已有的频点间进行插值,在本发明中采用三次B样条插值,即在原K个频点的基础上,扩充至mK个频点,m为正整数。因三次B样条插值在边界处有一定的偏差,为降低此误差,在进行插值前,人为地在数据两端扩充一些伪数据,即对幅度谱进行L点扩展,使边界条件不会影响实际数据的插值精度。所扩展的值分别等于频谱两端点的值,扩展后幅度谱为:
所述三次B样条插值函数为:
f ( x ) = Σ k ∈ Z c ( k ) β 3 ( x - k )
其中,f(x)表示待插入频点的幅度,k的取值为整数,β3(x)为三次B样条基函数,其表达式为:
&beta; 3 ( x ) = 2 / 3 - | x | 2 + | x | 3 / 2 , 0 &le; | x | < 1 ( 2 - | x | 3 ) / 6 , 1 &le; | x | < 2 0 , | x | &GreaterEqual; 2
c(k)是三次B样条插值系数,定义c-(k)=c(k)/6,对于给定的K维输入矢量y={y(0),...,y(K-1)},c-(k)可通过一下两个公式的递归方程求得:
c+(k)=y(k)+ac+(k-1)k=1,2,3,....,K-1,相当于一个因果滤波器。
c-(k)=a(c-(k+1)-c+(k))k=K-2,K-3.K-4,...,0,相当于一个非因果滤波器。
其中,
Figure BDA0000070385040000104
这两个递归方程的初始值c+(0)和c-(K-1)分别为:
c + ( 0 ) = &Sigma; k = 0 k 0 y ( k ) a k
c - ( K - 1 ) = a 1 - a 2 ( c + ( K - 1 ) + a c + ( K - 2 ) )
其中,k0>logλ/log|a|,λ是为满足精度要求而设的常数。最后,将求解的三次B样条插值系数c(k)带入公式c+(k)=y(k)+ac+(k-1)k=1,2,3,......,K-1,可获得待插值序列,插值后的幅度谱为:S′(i),i=0,1,2,...,mK-1。
步骤801、根据当前帧和前一帧对高密度幅度谱进行加权处理,使高密度谱平滑。
完成插值后,为降低该高密度幅度谱的跳变,对其进行平滑处理,平滑后的高密度频谱函数为:
Figure BDA0000070385040000113
i=0,1,2,...,mK-1,0<β≤1,其中S′[-1](i)为前一帧的高密度频谱,通过β设置S′[-1](i)和S′[0](i)在
Figure BDA0000070385040000114
中所占的比例,例如可设置为0.4。
Figure BDA0000070385040000115
为所需要的高密度幅度谱,根据该高密度幅度谱,对精细基音频率进行检测。
获得平滑后的高密度幅度谱后,对精细基音周期进行检测。在检测过程中,因为增加了频点的数量,提高了平均幅度
Figure BDA0000070385040000116
的精确度,降低了频点幅度值跳变给检测带来的影响。所述检测步骤与实施例1和实施例2相同,不再赘述。
实施例5
除可以对幅度谱进行三次B样条插值外,还可以在时域对该语音信号进行补零插值,如图9所示,包括:
步骤900、对所述语音信号进行尾部补零插值后转换到频域,获得该语音信号的高密度幅度谱。
在该语音信号的尾部补充幅值为零的点,将补零后的语音信号转换到频域,通过时频变换,将原有语音信号中的频点以及尾部所补充的幅值为零的点转换到频域,即可以在原有频域的幅度谱的频点之间,插入频点。
在时域到频域的转换过程中,幅度谱中原有频点的幅值不受到所补零点的影响,即在幅度谱中保持原有的频点以及该频点所对应的幅度值,从而获得了所述时域信号在频域内所对应的高密度幅度谱。
步骤901、根据当前帧和前一帧对高密度幅度谱进行加权处理,使高密度幅度谱平滑。
完成时频变换,获得所需要的高密度幅度谱后,为降低该高密度幅度谱的跳变,对其进行平滑处理,平滑后的高密度幅度谱函数为:
Figure BDA0000070385040000121
i=0,...,mK-1,0<β≤1,其中S′[-1](i)为前一帧的高密度幅度谱,通过β设置S′[-1](i)和S′[0](i)在
Figure BDA0000070385040000122
中所占的比例,例如可设置为0.4。
为所需要的高密度幅度谱,根据该高密度幅度谱,对精细基音频率进行检测。
获得平滑后的高密度幅度谱后,对精细基音周期进行检测。在检测过程中,因为增加了频点的数量,提高了平均幅度
Figure BDA0000070385040000124
的精确度,降低了频点幅度值跳变给检测带来的影响。所述检测步骤与实施例1和实施例2相同,不再赘述。
实施例6
当对高密度幅度谱进行倍频检测时,所获得的精细基音频率为初始基音频率的倍数,搜索范围只在基频、二倍频和三倍频位置,未对所有频域进行检测,不够精确。为得到精度更高的精细基音周期,在获取语音信号的高密度幅度谱后,还可以对该高密度幅度谱进行幅度的峰值搜索,并根据所对应的特征参数确定精细基音周期。
所述根据初始基音周期和特征参数进行精细基音周期检测,得到精细基音周期,如图10所示,还包括:
步骤1000、在所述高密度幅度谱中,对基频点和各倍频点附近一定范围内的幅度值进行比较,确定基频点和各倍频点附近一定范围内的峰值位置。
对频谱的幅度谱进行插值后,获取高密度幅度谱,在该高密度幅度谱中,在基频点和各倍频点附近一定范围内,例如以基频点f′为中心的2f′-2的范围内,进行幅度值的峰值搜索,确定基频点和各倍频点附近一定范围内的峰值位置,其中,基频点和每一个倍频点分别对应一个峰值位置。另可以求出基频点和各倍频点所对应的幅度的峰值。
步骤1001、判断基频点和各倍频点中是否存在一频点的平均幅度与频点幅度的比值参数值和其他频点的平均幅度与频点幅度的比值参数值的比值都大于第十三默认值,该一频点称为目标频点。
根据基频点和各倍频点的平均幅度与频点幅度的比值参数值进行比较,确定一个频点的平均幅度与频点幅度的比值参数值与其他所有频点的平均幅度与频点幅度的比值参数值的比值都大于第十三默认值δ,该第十三默认值δ可根据经验进行设置,例如设置为1.22。
步骤1002、如果基频点和各倍频点中存在一频点的平均幅度与频点幅度的比值参数值和其他频点的平均幅度与频点幅度的比值参数值的比值都大于第十三默认值,则判断所述目标频点到该目标频点所对应的峰值位置的距离是否小于其他频点到所对应的峰值位置的距离。
当基频点和各倍频点中存在一频点的平均幅度与频点幅度的比值参数值和其他频点的平均幅度与频点幅度的比值参数值的比值都大于第十三默认值δ时,则判断所述目标频点到该目标频点所对应的峰值位置的距离是否小于其他频点到所对应的峰值位置的距离,即确定该目标频点到所对应的峰值位置的距离是否为所有频点中到所对应的峰值位置的距离最小。
步骤1003、如果所述目标频点到该目标频点所对应的峰值位置的距离小于其他频点到所对应的峰值位置的距离,则确定该目标频点所对应的周期为精细基音周期。
如果满足上述两个条件,则可以确定该目标频点为所需要的精细基音频率。对该精细基音频率进行倒数运算,得到精细基音周期。
实施例7
如实施例1、实施例2和实施例6所述,当对高密度幅度谱中进行倍频检测时,所确定的精细基音频率为基频或各倍频点,精确度相对较低。当需要更高精确度的精细基音周期时,则可以根据实施例1、实施例2和实施例6所检测出来的频点做进一步的搜索。
所述对基音周期加倍错误的检测步骤与实施例1、实施例2和实施例6相同,不再赘述。
完成检测后,确定一倍频点,如系数为整数倍的三倍频点3f′。设置以该三倍频点3f′为中心,在其周围一定范围内(如二倍频点2f′和四倍频点4f′之间2f′-2),对该高密度频谱进行峰值搜索。当所确定的倍频点的系数为分数倍的二分之一倍频点f′/2时,可以设定峰值搜索范围为以f′/2为中心2k-2(k为所搜索的频点的频率)范围内的峰值,则最终可确定该峰值位置为所述的精细基音频率,对该精细基音频率做倒数运算,可确定所需要的精细基音周期。
在该范围内所获得的峰值所对应的频点为所需要的精细基音频率。
与上述一种基音检测方法相对应,本发明还提供了一种基音检测装置。
一种基音检测的装置,如图11所示,包括:
初始基音周期获取模块:用于在时域对所述语音信号进行基音检测,得到初始基音周期;
时频转换模块:用于将所述语音信号转换到频域,获得语音信号的频谱,该频谱包括频谱的幅度谱;
特征参数提取模块:用于根据初始基音周期和所述语音信号的频谱提取特征参数;
精细基音周期获取模块:用于根据初始基音周期和特征参数进行精细基音周期检测,得到精细基音周期。
所述特征参数,包括:平均幅度参数,平均幅度与频点幅度的比值参数,峰值位置参数。
所述精细基音周期获取模块,还包括:
倍频检测模块:用于对基频点和倍频点的特征参数进行比较,确定精细基音频率。
所述倍频检测模块,还包括:
峰值搜索模块:用于在精细基音频率附近一定范围内搜索幅度的峰值,对该峰值所对应的频点进行倒数运算,获取精细基音周期。
所述的一种基音检测的装置,还包括:
预处理模块:用于对所述语音信号进行预处理;
加窗模块:用于为所述预处理后的帧信号加分析窗。
所述时频转换模块,如图12所示,还包括:
频谱系数获取模块:用于对所述加分析窗后的语音信号进行频域变换,得到频谱系数;
能量谱获取模块:用于根据频谱系数,计算出能量谱。
所述的一种基音检测的装置,还包括:
能量谱平滑模块:用于根据当前帧和前一帧对能量谱进行加权处理,使能量谱平滑。
所述的一种基音检测的装置,还包括:
幅度谱获取模块:用于根据能量谱,计算出频谱的幅度谱。
所述的一种基音检测的装置,还包括:
幅度谱插值模块:用于为所述频谱的幅度谱进行插值,获取所述语音信号的高密度幅度谱。
所述时频转换模块,如图13所示,还包括:
语音信号插值模块:用于对所述语音信号进行尾部补零插值后转换到频域,获得该语音信号的高密度幅度谱。
所述的一种基音检测的装置,还包括:
高密度幅度谱平滑模块:用于根据当前帧和前一帧对高密度幅度谱进行加权处理,使高密度幅度谱平滑。
本发明实施例提供的一种基音检测的方法和装置,根据在时域上获取的初始基音周期和频域中所提取的特征参数对基音周期进行检测,避免基音周期加倍错误的出现,提高了基音周期检测的精确度。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (29)

1.一种基音检测的方法,其特征在于,包括:
在时域对所述语音信号进行基音检测,得到初始基音周期;
将所述语音信号转换到频域,获得语音信号的频谱,该频谱包括频谱的幅度谱;
根据初始基音周期和所述语音信号的频谱提取特征参数;
根据初始基音周期和特征参数进行精细基音周期检测,得到精细基音周期。
2.根据权利要求1所述的一种基音检测的方法,其特征在于,所述特征参数,包括:平均幅度参数,平均幅度与频点幅度的比值参数和峰值位置参数。
3.根据权利要求1所述的一种基音检测的方法,其特征在于,所述根据初始基音周期和特征参数进行精细基音周期检测,得到精细基音周期,还包括:根据平均幅度与频点幅度的比值参数值大小和平均幅度参数值大小进行判断或者根据平均幅度与频点幅度的比值参数值大小和缓存中所存储的当前帧之前倍频的判断结果进行判断。
4.根据权利要求3所述的一种基音检测的方法,其特征在于,所述根据平均幅度与频点幅度的比值参数值大小和平均幅度参数值大小进行判断,包括:
判断基频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值是否大于第一默认值;
如果基频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值大于第一默认值,则判断二倍频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值是否大于第二默认值;
如果二倍频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值大于第二默认值,则判断三倍频点平均幅度参数值与基频点平均幅度参数值的差值是否大于第三默认值;
如果三倍频点平均幅度参数值与基频点平均幅度参数值的差值大于第三默认值,则确定三倍频为所需要的精细基音频率。
5.根据权利要求3所述的一种基音检测的方法,其特征在于,所述根据平均幅度与频点幅度的比值参数值大小和缓存中所存储的当前帧之前倍频的判断结果进行判断,包括:
判断基频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值是否大于第四默认值;
如果基频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值大于第四默认值,则判断二倍频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值是否大于第五默认值;
如果二倍频点平均幅度与频点幅度的比值参数值和三倍频点平均幅度与频点幅度的比值参数值的比值大于第五默认值,则判断前一帧是否发生基音周期三倍错误;
如果前一帧发生基音周期三倍错误,则判断当前帧之前发生基音周期三倍错误的次数是否大于第六默认值;
如果当前帧之前发生基音周期三倍错误的次数大于第六默认值,则确定三倍频为所需要的精细基音周期。
6.根据权利要求3所述的一种基音检测的方法,其特征在于,所述根据平均幅度与频点幅度的比值参数值大小和平均幅度参数值大小进行判断,还包括:
判断基频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值是否大于第七默认值;
如果基频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值大于第七默认值,则判断三倍频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值是否大于第八默认值;
如果三倍频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值大于第八默认值,则判断二倍频点平均幅度参数值与基频点平均幅度参数值的差值是否大于第九默认值;
如果二倍频点平均幅度参数值与基频点平均幅度参数值的差值大于第九默认值,则确定二倍频为所需要的精细基音频率。
7.根据权利要求3所述的一种基音检测的方法,其特征在于,所述根据平均幅度与频点幅度的比值参数值大小和缓存中所存储的当前帧之前倍频的判断结果进行判断,还包括:
判断基频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值是否大于第十默认值;
如果基频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值大于第十默认值,则判断三倍频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值是否大于第十一默认值;
如果三倍频点平均幅度与频点幅度的比值参数值和二倍频点平均幅度与频点幅度的比值参数值的比值大于第十一默认值,则判断前一帧是否发生基音周期二倍错误;
如果前一帧发生基音周期二倍错误,则判断当前帧之前发生基音周期二倍错误的次数是否大于第十二默认值;
如果当前帧的之前发生基音周期二倍错误的次数大于第十二默认值,则确定二倍频为所需要检测的精细基音频率。
8.根据权利要求1所述的一种基音检测的方法,其特征在于,在所述根据初始基音周期和所述语音信号的频谱提取特征参数之前,包括:
为所述频谱的幅度谱进行插值,获取所述语音信号的高密度幅度谱。
9.根据权利要求8所述的一种基音检测的方法,其特征在于,所述插值,包括:三次B样条插值
Figure FDA0000070385030000031
其中f(x)为待插值信号,c(k)为三次B样插值系数,β3(x)为三次B样条基函数。
10.根据权利要求9所述的一种基音检测的方法,其特征在于,在所述三次B样条插值之前,还包括:
在幅度谱前后端点分别插入L个扩展点,该扩展点的值分别等于前后端点的值。
11.根据权利要求1所述的一种基音检测的方法,其特征在于,在将所述语音信号转换到频域,获得语音信号的频谱,该频谱包括频谱的幅度谱,还包括:
对所述语音信号进行尾部补零后转换到频域,获得该语音信号的高密度幅度谱。
12.根据权利要求8或11所述的一种基音检测的方法,其特征在于,获取所述语音信号的高密度幅度谱之后,包括:
根据当前帧和前一帧对高密度幅度谱进行加权处理,使高密度幅度谱平滑。
13.根据权利要求12所述的一种基音检测的方法,其特征在于,所述根据初始基音周期和特征参数进行精细基音周期检测,得到精细基音周期,还包括:
在所述高密度幅度谱中,对基频点和各倍频点附近一定范围内的幅度值进行比较,确定基频点和各倍频点附近一定范围内的峰值位置;
判断基频点和各倍频点中是否存在一频点的平均幅度与频点幅度的比值参数值和其他频点的平均幅度与频点幅度的比值参数值的比值都大于第十三默认值,该一频点称为目标频点;
如果基频点和各倍频点中存在一频点的平均幅度与频点幅度的比值参数值和其他频点的平均幅度与频点幅度的比值参数值的比值都大于第十三默认值,则判断所述目标频点到该目标频点所对应的峰值位置的距离是否小于其他频点到所对应的峰值位置的距离;
如果所述目标频点到该目标频点所对应的峰值位置的距离小于其他频点到所对应的峰值位置的距离,则确定该目标频点所对应的周期为精细基音周期。
14.根据权利要求1所述的一种基音检测的方法,其特征在于,所述根据初始基音周期和特征参数进行精细基音周期检测,得到精细基音周期,还包括:
在精细基音频率附近一定范围内搜索幅度的峰值,对该峰值所对应的频点进行倒数运算,获取精细基音周期。
15.根据权利要求1所述的一种基音检测的方法,其特征在于,在所述将所述语音信号转换到频域,获得语音信号的频谱之前,包括:
对所述语音信号进行预处理;
为所述预处理后的帧信号加分析窗。
16.根据权利要求15所述的一种基音检测的方法,其特征在于,所述将所述语音信号转换到频域,包括:
对所述加分析窗后的语音信号进行频域变换,得到频谱系数;
根据频谱系数,计算出能量谱。
17.根据权利要求16所述的一种基音检测的方法,其特征在于,在所述根据能量谱,计算出幅度谱之前,包括:
根据当前帧和前一帧对能量谱进行加权处理,使能量谱平滑。
18.根据权利要求17所述的一种基音检测的方法,其特征在于,对所属能量谱进行平滑处理,得到平滑能量谱之后,包括:
根据能量谱,计算出频谱的幅度谱
Figure FDA0000070385030000041
k=0,...,K-1,其中S(k)为幅度谱函数。
19.一种基音检测的装置,其特征在于,包括:
初始基音周期获取模块:用于在时域对所述语音信号进行基音检测,得到初始基音周期;
时频转换模块:用于将所述语音信号转换到频域,获得语音信号的频谱,该频谱包括频谱的幅度谱;
特征参数提取模块:用于根据初始基音周期和所述语音信号的频谱提取特征参数;
精细基音周期获取模块:用于根据初始基音周期和特征参数进行精细基音周期检测,得到精细基音周期。
20.根据权利要求19所述的一种基音检测的装置,其特征在于,所述特征参数,包括:平均幅度参数,平均幅度与频点幅度的比值参数,峰值位置参数。
21.根据权利要求19所述的一种基音检测的装置,其特征在于,所述精细基音周期获取模块,还包括:
倍频检测模块:用于对基频点和倍频点的特征参数进行比较,确定精细基音频率,并对精细基音频率进行倒数运算,获取精细基音周期。
22.根据权利要求19所述的一种基音检测的装置,其特征在于,所述倍频检测模块,还包括:
峰值搜索模块:用于在精细基音频率附近一定范围内搜索幅度的峰值,对该峰值所对应的频点进行倒数运算,获取精细基音周期。
23.根据权利要求19所述的一种基音检测的装置,其特征在于,包括:
预处理模块:用于对所述语音信号进行预处理;
加窗模块:用于为所述预处理后的帧信号加分析窗。
24.根据权利要求19所述的一种基音检测的装置,其特征在于,所述时频转换模块,还包括:
频谱系数获取模块:用于对所述加分析窗后的语音信号进行频域变换,得到频谱系数;
能量谱获取模块:用于根据频谱系数,计算出能量谱。
25.根据权利要求24所述的一种基音检测的装置,其特征在于,还包括:
能量谱平滑模块:用于根据当前帧和前一帧对能量谱进行加权处理,使能量谱平滑。
26.根据权利要求25所述的一种基音检测的装置,其特征在于,还包括:
幅度谱获取模块:用于根据能量谱,计算出频谱的幅度谱。
27.根据权利要求26所述的一种基音检测的装置,其特征在于,还包括:
幅度谱插值模块:用于为所述频谱的幅度谱进行插值,获取所述语音信号的高密度幅度谱。
28.根据权利要求19所述的一种基音检测的装置,其特征在于,所述时频转换模块,还包括:
语音信号插值模块:用于对所述语音信号进行尾部补零插值后转换到频域,获得该语音信号的高密度幅度谱。
29.根据权利要求27或28所述的一种基音检测的装置,其特征在于,还包括:
高密度幅度谱平滑模块:用于根据当前帧和前一帧对高密度幅度谱进行加权处理,使高密度幅度谱平滑。
CN201110170075.0A 2011-06-22 2011-06-22 一种基音检测的方法和装置 Active CN102842305B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201110170075.0A CN102842305B (zh) 2011-06-22 2011-06-22 一种基音检测的方法和装置
EP12802425.4A EP2662854A1 (en) 2011-06-22 2012-06-25 Method and device for detecting fundamental tone
PCT/CN2012/077456 WO2012175054A1 (zh) 2011-06-22 2012-06-25 一种基音检测的方法和装置
KR1020137021767A KR20130117855A (ko) 2011-06-22 2012-06-25 피치 검출 방법 및 장치
JP2013556963A JP2014507689A (ja) 2011-06-22 2012-06-25 ピッチ検出方法及び装置
US14/136,130 US20140142931A1 (en) 2011-06-22 2013-12-20 Pitch detection method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110170075.0A CN102842305B (zh) 2011-06-22 2011-06-22 一种基音检测的方法和装置

Publications (2)

Publication Number Publication Date
CN102842305A true CN102842305A (zh) 2012-12-26
CN102842305B CN102842305B (zh) 2014-06-25

Family

ID=47369591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110170075.0A Active CN102842305B (zh) 2011-06-22 2011-06-22 一种基音检测的方法和装置

Country Status (6)

Country Link
US (1) US20140142931A1 (zh)
EP (1) EP2662854A1 (zh)
JP (1) JP2014507689A (zh)
KR (1) KR20130117855A (zh)
CN (1) CN102842305B (zh)
WO (1) WO2012175054A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103915099A (zh) * 2012-12-29 2014-07-09 北京百度网讯科技有限公司 语音基音周期检测方法和装置
CN104599682A (zh) * 2015-01-13 2015-05-06 清华大学 电话线质量语音的基音周期提取方法
CN105448297A (zh) * 2014-08-28 2016-03-30 中国移动通信集团公司 一种获取基音周期的方法及装置
CN109243479A (zh) * 2018-09-20 2019-01-18 广州酷狗计算机科技有限公司 音频信号处理方法、装置、电子设备及存储介质
CN110176242A (zh) * 2019-07-10 2019-08-27 广州荔支网络技术有限公司 一种音色的识别方法、装置、计算机设备和存储介质
CN110379438A (zh) * 2019-07-24 2019-10-25 山东省计算中心(国家超级计算济南中心) 一种语音信号基频检测与提取方法及系统
CN110853671A (zh) * 2019-10-31 2020-02-28 普联技术有限公司 一种音频特征提取方法和装置、训练方法及音频分类方法
CN111223491A (zh) * 2020-01-22 2020-06-02 深圳市倍轻松科技股份有限公司 一种提取音乐信号主旋律的方法、装置及终端设备
CN113096670A (zh) * 2021-03-30 2021-07-09 北京字节跳动网络技术有限公司 音频数据的处理方法、装置、设备及存储介质
CN113113052A (zh) * 2021-04-08 2021-07-13 深圳市品索科技有限公司 一种离散点的语音基音识别装置及计算机存储介质
CN113096670B (zh) * 2021-03-30 2024-05-14 北京字节跳动网络技术有限公司 音频数据的处理方法、装置、设备及存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103426441B (zh) 2012-05-18 2016-03-02 华为技术有限公司 检测基音周期的正确性的方法和装置
CN105338148B (zh) * 2014-07-18 2018-11-06 华为技术有限公司 一种根据频域能量对音频信号进行检测的方法和装置
JP6904198B2 (ja) * 2017-09-25 2021-07-14 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
CN110728990B (zh) * 2019-09-24 2022-04-05 维沃移动通信有限公司 基音检测方法、装置、终端设备和介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4696038A (en) * 1983-04-13 1987-09-22 Texas Instruments Incorporated Voice messaging system with unified pitch and voice tracking
CN1342968A (zh) * 2000-09-13 2002-04-03 中国科学院自动化研究所 用于语音识别的高精度高分辨率基频提取方法
US20060080088A1 (en) * 2004-10-12 2006-04-13 Samsung Electronics Co., Ltd. Method and apparatus for estimating pitch of signal
CN1826632A (zh) * 2003-03-31 2006-08-30 国际商业机器公司 用于语音信号的组合频域和时域音高提取的系统和方法
CN101325631A (zh) * 2007-06-14 2008-12-17 华为技术有限公司 一种实现丢包隐藏的方法和装置
CN102016530A (zh) * 2009-02-13 2011-04-13 华为技术有限公司 一种基音周期检测方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8400552A (nl) * 1984-02-22 1985-09-16 Philips Nv Systeem voor het analyseren van menselijke spraak.
JP4502246B2 (ja) * 2003-04-24 2010-07-14 株式会社河合楽器製作所 音程判定装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4696038A (en) * 1983-04-13 1987-09-22 Texas Instruments Incorporated Voice messaging system with unified pitch and voice tracking
CN1342968A (zh) * 2000-09-13 2002-04-03 中国科学院自动化研究所 用于语音识别的高精度高分辨率基频提取方法
CN1826632A (zh) * 2003-03-31 2006-08-30 国际商业机器公司 用于语音信号的组合频域和时域音高提取的系统和方法
US20060080088A1 (en) * 2004-10-12 2006-04-13 Samsung Electronics Co., Ltd. Method and apparatus for estimating pitch of signal
CN101325631A (zh) * 2007-06-14 2008-12-17 华为技术有限公司 一种实现丢包隐藏的方法和装置
CN102016530A (zh) * 2009-02-13 2011-04-13 华为技术有限公司 一种基音周期检测方法和装置

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103915099A (zh) * 2012-12-29 2014-07-09 北京百度网讯科技有限公司 语音基音周期检测方法和装置
CN103915099B (zh) * 2012-12-29 2016-12-28 北京百度网讯科技有限公司 语音基音周期检测方法和装置
CN105448297A (zh) * 2014-08-28 2016-03-30 中国移动通信集团公司 一种获取基音周期的方法及装置
CN104599682A (zh) * 2015-01-13 2015-05-06 清华大学 电话线质量语音的基音周期提取方法
CN109243479A (zh) * 2018-09-20 2019-01-18 广州酷狗计算机科技有限公司 音频信号处理方法、装置、电子设备及存储介质
CN109243479B (zh) * 2018-09-20 2022-06-28 广州酷狗计算机科技有限公司 音频信号处理方法、装置、电子设备及存储介质
CN110176242A (zh) * 2019-07-10 2019-08-27 广州荔支网络技术有限公司 一种音色的识别方法、装置、计算机设备和存储介质
CN110379438B (zh) * 2019-07-24 2020-05-12 山东省计算中心(国家超级计算济南中心) 一种语音信号基频检测与提取方法及系统
CN110379438A (zh) * 2019-07-24 2019-10-25 山东省计算中心(国家超级计算济南中心) 一种语音信号基频检测与提取方法及系统
CN110853671A (zh) * 2019-10-31 2020-02-28 普联技术有限公司 一种音频特征提取方法和装置、训练方法及音频分类方法
CN110853671B (zh) * 2019-10-31 2022-05-06 普联技术有限公司 一种音频特征提取方法和装置、训练方法及音频分类方法
CN111223491A (zh) * 2020-01-22 2020-06-02 深圳市倍轻松科技股份有限公司 一种提取音乐信号主旋律的方法、装置及终端设备
CN113096670A (zh) * 2021-03-30 2021-07-09 北京字节跳动网络技术有限公司 音频数据的处理方法、装置、设备及存储介质
CN113096670B (zh) * 2021-03-30 2024-05-14 北京字节跳动网络技术有限公司 音频数据的处理方法、装置、设备及存储介质
CN113113052A (zh) * 2021-04-08 2021-07-13 深圳市品索科技有限公司 一种离散点的语音基音识别装置及计算机存储介质
CN113113052B (zh) * 2021-04-08 2024-04-05 深圳市品索科技有限公司 一种离散点的语音基音识别装置及计算机存储介质

Also Published As

Publication number Publication date
EP2662854A1 (en) 2013-11-13
CN102842305B (zh) 2014-06-25
KR20130117855A (ko) 2013-10-28
WO2012175054A1 (zh) 2012-12-27
US20140142931A1 (en) 2014-05-22
JP2014507689A (ja) 2014-03-27

Similar Documents

Publication Publication Date Title
CN102842305B (zh) 一种基音检测的方法和装置
CN106653056B (zh) 基于lstm循环神经网络的基频提取模型及训练方法
US20230402048A1 (en) Method and Apparatus for Detecting Correctness of Pitch Period
CN110333389A (zh) 基于插值dft的正弦信号频率估计方法
EP2828856A2 (en) Harmonicity estimation, audio classification, pitch determination and noise estimation
CN108922543B (zh) 模型库建立方法、语音识别方法、装置、设备及介质
CN111223491B (zh) 一种提取音乐信号主旋律的方法、装置及终端设备
CN106646350B (zh) 一种单只矢量水听器各通道幅度增益不一致时的修正方法
CN106169295A (zh) 身份向量生成方法和装置
CN104901909B (zh) 一种α非高斯噪声下chirp信号的参数估计方法
CN105845149A (zh) 声音信号中主音高的获取方法及系统
CN110010153A (zh) 一种基于神经网络的静音检测方法、终端设备及介质
US20020128835A1 (en) Voice recognition system and standard pattern preparation system as well as voice recognition method and standard pattern preparation method
Sun et al. An adaptive speech endpoint detection method in low SNR environments
WO2003017250A1 (en) 2-phase pitch detection method and appartus
US20140140519A1 (en) Sound processing device, sound processing method, and program
CN101853262A (zh) 基于交叉熵的音频指纹快速搜索方法
KR20140077774A (ko) 문서 클러스터링 기반 언어모델 적응 장치 및 방법
CN108599882B (zh) 一种基于自编码器的宽带频谱感知方法和装置
KR101862352B1 (ko) 음성 인식을 위한 전처리 장치, 및 이를 이용한 음성 인식 장치 및 방법
CN111198789B (zh) 一种fft硬件实现模块的验证方法
TWI225637B (en) Method for calculation a pitch period estimation of speech signals with variable step size
CN113808606B (zh) 语音信号处理方法和装置
Ollerenshaw et al. Dynamic kernels and channel attention for low resource speaker verification
US11069373B2 (en) Speech processing method, speech processing apparatus, and non-transitory computer-readable storage medium for storing speech processing computer program

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210508

Address after: Unit 3401, unit a, building 6, Shenye Zhongcheng, No. 8089, Hongli West Road, Donghai community, Xiangmihu street, Futian District, Shenzhen, Guangdong 518040

Patentee after: Honor Device Co.,Ltd.

Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd.