CN104036785A - 语音信号的处理方法和装置、以及语音信号的分析系统 - Google Patents
语音信号的处理方法和装置、以及语音信号的分析系统 Download PDFInfo
- Publication number
- CN104036785A CN104036785A CN201310072649.XA CN201310072649A CN104036785A CN 104036785 A CN104036785 A CN 104036785A CN 201310072649 A CN201310072649 A CN 201310072649A CN 104036785 A CN104036785 A CN 104036785A
- Authority
- CN
- China
- Prior art keywords
- fundamental frequency
- candidate
- frequency
- harmonic wave
- fundamental
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本发明公开了一种语音信号的处理方法和装置、以及语音信号的分析系统,其中,该处理装置包括:第一确定模块,用于对预定基频范围内多个候选基频中的每个候选基频,确定语音信号中该候选基频的多次谐波和,其中,在确定每个候选基频的谐波和时,第一确定模块根据该候选基频的一次谐波之外的其他谐波计算该候选基频的谐波和;第二确定模块,用于根据多个候选基频的多次谐波和,从多个候选基频中确定语音信号的实际基频。本发明在针对候选基频的确定谐波和进而确定基频时,避免考虑基频的一次谐波,从而能够有效消除噪声对基频确定结果的不良影响,有效提高无噪声和各种有噪声的情况下基频确定的准确性。
Description
技术领域
本发明涉及语音信号的处理,并且特别地,涉及一种语音信号的处理方法和装置、以及语音信号的分析系统。
背景技术
基频是人声的固有特征。它是在发声时,肺部的气流通过喉中的声门,引起声带的周期性振动,形成周期性的脉冲串进入声道,这个周期性脉冲的周期称为基音周期。基音周期的倒数就是基频。主要使用以下两种方法在语音信号处理中进行基频提取:
(方法一)时域估计法:直接由语音波形来估计基音周期。时域估计法可以包括例如时域自相关法、中央削波自相关法。以下详述时域自相关法:通过计算信号自身的相关函数来计算信号的基音周期,而基音周期的倒数就是基频。
参见式(1):
其中,xi是该帧内的第i个采样点值,N是该帧内的所有采样点的个数,R[m]是周期为m个采样点的自相关值,除了R[0]之外,R[T]的值最大,则T就是该帧的基音周期。但是,当语音是带噪的信号时,T处的自相关系统会受到较大影响,T的计算就会出现很大偏差,最终导致基频的计算不准确。
(方法二)变换域法:在语音信号的频域或倒谱域估计基音周期。该方法主要包括尺度不变特征转换(Scale-invariant feature transform,也称为SIFT)法、谐波和分析法、和基于小波变换的语音基频提取方法等。其中,SIFT法具体包括以下步骤:语音波形降低采样率后,进行线性预测编码(linearpredictive coding,也称为LPC)分析,用逆滤波器平坦处理频谱,通过预测误差的自相关函数恢复时间精度。谐波和分析法具体包括以下步骤:对每帧信号进行快速傅立叶变换(fast Fourier transform,也称为FFT)计算,确定基频候选范围,计算每个候选基频的谐波累加和。计算后,峰值对应的基频即为该帧的基频。
以下将详述谐波和分析法的主要基本步骤:
(步骤一)为了增大基频提取的精度,首先将信号降采样,假设降采样到原来采样率fs的1/R;计算降采样后语音的FFT(假设FFT_Len个点的FFT);对FFT进行插值,每个倍频插值Inplotion_N个点。所以,基频提取的分辨率如公式(2.1)所示:
如果采样率16000Hz,R=4,FFT_Len=512,插值Inplotion_N=20,提取基频的分辨率为0.39Hz,因此,在这种分辨率下提取的基频有足够小的粒度;
(步骤二)使用式(2.2)计算谐波和:
其中,S(.)为插值后得到的精细频谱,h为压缩因子,0<h<1,N为最大谐波次数。
其中,N的表示可参见式(2.3):
其中,floor(x)为下限函数,求得小于等于x的最大整数。Fmax为最大谐波频率。
将H(f0)的最大值对应的f0作为最佳的基频,或者采取动态规划等方法,选取每帧最佳的基频值。
目前所采用的上述谐波和分析法的缺点主要在于:当信号是噪声信号时候,用来计算谐波和的谐波不仅仅包括语音信号的谐波信息,还包括环境噪声的信息,而环境噪声是没有谐波特性的、随机的,因此,环境噪声的出现将会破坏原始语音信号的谐波特性。因此,利用峰值谐波和计算出来的基频可能不是真正的基频,从而导致计算出现错误。
而在诸如语音分析、语音识别等多种语音处理中,基频都是非常关键的参数,一旦确定的基频不准确,将导致这些语音处理无法正常、准确地进行。
针对相关技术中因为噪声信号的存在而导致基频确定结果不准确、进而影响后续工作难以进行的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中因为噪声信号的存在而导致基频确定结果不准确、进而影响后续工作难以进行的问题,本发明提出一种语音信号的处理方法和装置、以及语音信号的分析系统,能够根据候选基频的谐波计算候选基频的谐波和,从而确定语音信号的实际基频,从而排除噪声信号导致的误差,提高根据语音信号的谐波特性计算基频的准确率。
本发明的技术方案是这样实现的:
根据本发明的一个方面,提供了一种语音信号的处理装置。
该处理装置包括:
第一确定模块,用于对预定基频范围内多个候选基频中的每个候选基频,确定语音信号中该候选基频的多次谐波和,其中,在确定每个候选基频的谐波和时,第一确定模块根据该候选基频的一次谐波之外的其他谐波计算该候选基频的谐波和;
第二确定模块,用于根据多个候选基频的多次谐波和,从多个候选基频中确定语音信号的实际基频。
根据本发明的一个方面,提供了一种语音信号的分析系统。
该分析系统包括:
语音采集设备,用于采集外界输入的语音信号;
第一确定模块,用于对预定基频范围内多个候选基频中的每个候选基频,确定语音信号中该候选基频的多次谐波和,其中,在确定每个候选基频的谐波和时,第一确定模块根据该候选基频的一次谐波之外的其他谐波计算该候选基频的谐波和;
第二确定模块,用于根据多个候选基频的多次谐波和,从多个候选基频中确定语音信号的实际基频;
分析模块,用于根据确定的实际基频对语音信号进行分析。
根据本发明的一个方面,提供了一种语音信号的处理方法。
该处理方法包括:
对于预定基频范围内多个候选基频中的每个候选基频,确定语音信号中该候选基频的多次谐波和,其中,在确定每个候选基频的谐波和时,根据该候选基频的一次谐波之外的其他谐波计算该候选基频的谐波和;
根据多个候选基频的多次谐波和,从多个候选基频中确定语音信号的实际基频。
本发明在针对候选基频的确定谐波和进而确定基频时,避免考虑基频的一次谐波,从而能够有效消除噪声对基频确定结果的不良影响,有效提高在有噪声的情况下基频确定的准确性,并且,由于在不考虑一次谐波时,能够避免很多噪声的影响,而在低噪声或无噪声的环境下,一次谐波之外的其他高次谐波同样能够准确地确定基频,因此,本发明的方案还能够提高无噪声或低噪声基频确定的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的语音信号的处理装置的框图;
图2是根据本发明实施例的语音信号的分析系统的框图;
图3是根据本发明实施例的语音信号的处理方法的流程图;
图4是根据本发明实施例的语音处理方案进行异常语音检测时进行语音训练的流程图;
图5是根据本发明实施例的语音处理方案进行异常语音检测时进行语音测试的流程图;
图6是根据本发明实施例的语音处理方案根据语音还原歌曲旋律的流程图;
图7是实现本发明技术方案的计算机的示例性结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
带噪信号在计算基频的时候,基频提取错误很多,经分析发现,这种错误的出现主要是因为信号的低频频谱受到噪声频谱的影响很大,使得一次谐波所在频带的能量和周围噪声的能量之间的差异不明显,因而引入了很多值很低的伪基频(通常情况下,伪基频很小,但是对应的谐波次数比较大,因此谐波和也会变成最大)。针对这种情况,本发明提出了解决方案,能够在有噪声存在的环境下,解决基频提取误差较大的问题,并且,即使将本发明的技术方案应用于静音场景中,也不会降低基频提取的准确性。下面将结合附图,详细描述本发明的实施例。
根据本发明的实施例,提供了一种语音信号的处理装置。
如图1所示,根据本发明实施例的处理装置包括:
第一确定模块11,用于对预定基频范围内多个候选基频中的每个候选基频,确定语音信号中该候选基频的多次谐波和,其中,在确定每个候选基频的谐波和时,第一确定模块根据该候选基频的一次谐波之外的其他谐波计算该候选基频的谐波和;
第二确定模块12,用于根据多个候选基频的多次谐波和,从多个候选基频中确定语音信号的实际基频。
根据本发明的一个实施例,在确定多次谐波和时,第一确定模块可以用于计算二次谐波、三次谐波、...、Nmax次谐波的谐波和(在其他实例中,也可以对这些谐波中的部分谐波进行选择性筛选),这里,Nmax是最大谐波个数的预定值,例如,Nmax可以为2-10。在一个实例中,Nmax可以为5。
而且,在确定每个候选基频的谐波和时,用于确定谐波和的谐波的最大频率小于或等于预定的频率门限值。在一个实施例中,频率门限值大于或等于基频范围的上限值的3倍。在另一实施例中,频率门限值大于或等于基频范围的上限值的4倍。在其他实施例中,频率门限值可以设置为其他值,只要能够保证提取的谐波数量达到数个即可。
在一个实施例中,可以同时采用最大谐波个数和频率门限值(也可称为最大谐波频率)这两个条件,限制用于确定谐波和的谐波。
此时,对于一个候选基频,实际选择的用于计算谐波和的谐波个数N1可通过以下公式表示:
其中,f01为该候选基频的频率,Fmax为频率门限值,floor是取整的意思。
此外,根据本发明实施例的处理装置进一步包括:
第三确定模块(未示出),用于预先确定用于提取候选基频的分辨率;
基频提取模块(未示出),用于根据确定的分辨率从预定基频范围内提取多个基频,其中,分辨率满足以下条件:差值为分辨率的两个基频的谐波和不相等。由于相差较小的基频,其谐波往往不具有显著的区别甚至是相同的,因此,如果基频提取的分辨率太小,会导致针对多个基频确定的谐波和彼此非常接近甚至相等,这些计算显然不是必要的,但是却会明显增大计算量和所占用的时间。不同于常用的降采样加插值的方法,本发明提出,仅将谐波存在差异的基频作为候选基频而确定这些基频的谐波和,能够避免上述不必要的计算,使得需要进行谐波和计算的基频数量不会太多,从而有效减少了计算量和语音处理的时间。
其中,第三确定模块用于:
根据带宽和频率门限值确定分辨率,其中,频率门限值为确定谐波和时所使用的多个谐波的频率上限值,带宽为语音信号的采样频率与快速傅里叶变换点值的比值。
具体地,本发明提出将基频的分辨率设置为B/Fmax;其中,B为带宽,B=fs/FFT_Len;Fmax是最大谐波频率(即,上述的频率门限值),FFT_Len是快速傅里叶变换的点值,fs为语音信号的采样频率。这样,不仅能够避免采用计算复杂度大的频率插值方法,而且能够保证基频提取的分辨率满足一定的粒度,不会影响最后确定的基频的准确性。
这样,得到的基频候选集合的各个基频f0可以表示如下:
f0=fmin+n*(B/Fmax);
其中,n为最大频率范围内候选基频的数量,fmin为候选基频中的基频下限。
在相关技术中,通常可以使用[50,500]Hz作为基频范围,在本发明的一个实施例中,同样可以采用该基频范围。但是,本发明进一步考虑到,对于声调频率较高的人声(例如,女声),特别是在紧急情况下的声音,基频会变得很大,如果还是原有的基频范围进行基频提取,由于这些频率较高的人声的实际基频已经超出了基频范围的上限频率值,所以会将一些半倍频错误地认为是真正的基频,而真正的基频因为不在[50,500]Hz的基频范围内,而直接被忽视掉,而在此基础上进行大量计算后最终确定的基频显然是错误的。
针对上述问题,本发明提出对基频范围进行调整。在一个实施例中,可以将预定基频范围的上限值设置为500Hz至902Hz,从而避免特殊情况下基频较高的人声无法被采集到的问题。
此外,本发明还提出,将预定基频范围的下限值设置为50Hz至68Hz。由于人声通常不会达到很低的频率,因此,本发明通过调整基频的下限值,能够避免针对频率过低的候选基频进行计算,并且,还能够在针对较低基频确定谐波和时消除低频噪声对计算结果的影响(因为低频噪声的存在,很可能使较低的基频的谐波和增大,进而将这些较低的基频错误地确定为实际基频)。
在一个实施例中,本发明所采用的基频范围为[68,902]Hz。
此外,在其他实施例中,基频的范围也会随着实际情况而改变,例如,可以选择为[60,902]Hz、[60,500]Hz、[68,1000]Hz、[50,902]Hz、[50,1000]Hz、[60,1200]Hz等,对于基频的其他可选范围,本文不再一一列举。
随着基频上限值的改变,上述频率门限值可以相应地设置为902Hz的3倍(2706Hz),也可以直接设置为3000Hz等,这里不再详述。
根据本发明实施例的第一确定模块11可以采用如下公式计算谐波:
s(g(f0));其中,g(.)为计算得到某个频率对应FFT频带的索引值,s(x)是第x个FFT频带的能量。
采用FFT频带的快速谐波和计算公式:可以将谐波和最大值对应的f0作为最佳的基频。
应当注意,上述公式和具体的计算方法仅仅用于说明,并非用于限定本发明,在实际应用中,也可以采用其他的计算方法和公式完成类似功能的计算。
根据本发明的实施例,提供了一种语音信号的分析系统。
如图2所示,根据本发明实施例的语音信号的分析系统包括:
语音采集设备21,用于采集外界输入的语音信号;
第一确定模块22,用于对预定基频范围内多个候选基频中的每个候选基频,确定语音信号中该候选基频的多次谐波和,其中,在确定每个候选基频的谐波和时,第一确定模块根据该候选基频的一次谐波之外的其他谐波计算该候选基频的谐波和;
第二确定模块23,用于根据多个候选基频的多次谐波和,从多个候选基频中确定语音信号的实际基频;
分析模块24,用于根据确定的实际基频对语音信号进行分析。
同时,在确定每个候选基频的谐波和时,第一确定模块22用于根据数量小于或等于预定值的谐波确定该候选基频的谐波和。
而且,在确定每个候选基频的谐波和时,用于确定谐波和的谐波的最大频率小于或等于预定的频率门限值。并且,在一个实施例中,频率门限值大于或等于基频范围的上限值的3倍。
根据本发明实施例的语音采集设备可以包括麦克风、语音传感器等多种设备,只要其具备语音采集功能即可。
此外,该语音信号的分析系统中的第一确定模块22与上述的第一确定模块11功能类似或相同,第二确定模块23与上述第二确定模块12的功能类似或相同。
并且,根据本发明实施例的语音信号的分析系统同样可以包括上述的第三确定模块和基频提取模块,并且,对于基频范围的设定、频率门限值的设定、谐波和的确定方法、以及基频提取的分辨率的设置,同样可以参照之前描述的方案进行,这里不再重复。
另外,本发明的语音信号的分析系统可以具有多种用途,例如,根据本发明的分析系统可以用于点歌系统中,分析模块24在进行分析时,能够根据一连串语音的基频确定语音的高低,进而确定这一连串语音所对应的旋律或者歌曲名称;另外,根据本发明实施例的分析系统还可以应用于监控系统,分析模块24在进行分析时,能够根据确定的语音基频将采集的语音与数据库中保存的特定语音进行对比,从而确定两者是否属于同一人;另外,分析模块24还可以将某个人的某一段语音与这个人的其他语音进行比较,确定其情绪、健康状况等生理参数。具体的可应用场景将在后面进行详细描述。
根据本发明的实施例,提供了一种语音信号的处理方法。
如图3所示,根据本发明实施例的处理方法包括:
步骤S301,对于预定基频范围内多个候选基频中的每个候选基频,确定语音信号中该候选基频的多次谐波和,其中,在确定每个候选基频的谐波和时,根据该候选基频的一次谐波之外的其他谐波计算该候选基频的谐波和;
步骤S303,根据多个候选基频的多次谐波和,从多个候选基频中确定语音信号的实际基频。
同时,在确定每个候选基频的谐波和时,根据数量小于或等于预定值的谐波确定该候选基频的谐波和。
并且,在确定每个候选基频的谐波和时,用于确定谐波和的谐波的最大频率小于或等于预定的频率门限值。
进一步地,频率门限值大于或等于基频范围的上限值的3倍。
而且,根据本发明实施例的处理方法进一步包括以下两个步骤:
步骤1、预先确定用于提取候选基频的分辨率;
步骤2、根据确定的分辨率从预定基频范围内提取多个基频,其中,分辨率满足以下条件:差值为分辨率的两个基频的谐波和不相等。
此外,预先确定用于提取候选基频的分辨率包括:
根据带宽和频率门限值确定分辨率,其中,频率门限值为确定谐波和时所使用的多个谐波的频率上限值,带宽为语音信号的采样频率与快速傅里叶变换点值的比值。
并且,从多个候选基频中确定语音信号的实际基频包括将多个候选基频中,谐波和最大的候选基频确定为实际基频。
在实现根据本发明实施例的上述方法时,对于基频范围的设定、频率门限值的设定、谐波和的确定方法、以及基频提取的分辨率的设置,同样可以参照之前描述的方案进行,这里不再重复。
以上根据本发明的语音信号的处理装置、语音信号的分析系统以及语音信号的处理方法可以应用到以下场景。
场景一,监控异常声音检测:
人在紧急情况下的语音基频和正常情况下的语音基频存在很大差异,比如,正常情况下,基频的范围是[60,600],但是在紧急情况下,基频范围会变大,如[60,900],特别是对于女声;另外,基频的均值、方差等统计特征也会存在很大差异。因此,可以利用异常声音基频的变化特性,如范围、波动情况、稳定段时长等信息检测出异常声音。
具体实现流程如图4和图5所示:
如图4所示,在训练部分,对正常/异常音频进行分割处理、基频提取、统计特性参数、模型训练,然后得出正常/异常声音模型。
如图5所示,在测试部分,对测试音频进行分割处理、基频提取、统计特性参数,然后进行音频类别判断,异常或正常,然后得出声音异常与否。
其中,范围可以采用基频极值表示;波动情况可以采用均值、方差、峰值和谷值的分布/密度来表示;稳定时段可以通过基频维持某一数值不变的时间来表述。
其中分割处理部分,主要是将有人声音的部分切分出来,也可以用基频来实现,因为噪声部分是没有基频的,基频是人声特有的特征。即有声音的音频段是可以提取出基频特征的,其他噪声是没有基频特征的。因此可以将测试音频分割成有语音段和没有语音段。对有语音段进行后续异常声音检测处理。
场景2,准确提取哼唱中基频,提取节奏信息:
具体实现流程如图6所示:
对哼唱音频进行分割处理、基频提取、基频跳跃点判断、切分得到每个音符、每段音频时长获取节拍信息、得到节奏信息。
其中,基频跳跃点判断是根据基频包络中出现的基频跳变情况得到的,如果基频跳变满足一个音高才认为是正确的跳变,否则仅是简单的基频抖动。如果是基频跳变的话,进行切分。然后根据切分后音频的时长计算节拍的信息,最后得到该段音频的节奏信息。得到完整一段节奏韵律后,就可以在韵律数据库里面搜索,匹配出准确地音乐。
下面将描述借助于本发明的上述技术方案,得到的实验结果。其中,实验数据是在以下场景中采集到的:(1)在没有噪音情况下(例如,SNR>60)(signalto noise ratio,信噪比,也称为SNR)的原始信号,包括正常声音和异常声音;(2)有背景噪声的信号,包含同样的正常声音和异常声音,SNR分别为24dB、18dB、12dB、6dB。
在进行评估时,可以对多段语音确定基频,之后将每段语音的确定的基频与这段语音的已知基频进行比较,确定每段语音的基频确定是否准确,具体可以采用以下评估准则:
基频提取试验结果(基频确定的准确率)如表1所示:
表1
可以看出,本发明的技术方案不仅仅在存在噪声的场景中显著提高了基频确定的准确率,即使在低噪声或无噪声的场景中,同样优于已有方案。
综上所述,借助于本发明的技术方案,本发明在针对候选基频的确定谐波和进而确定基频时,避免考虑基频的一次谐波,从而能够有效消除噪声对基频确定结果的不良影响,有效提高无噪声和各种有噪声的情况下基频确定的准确性。并且,本发明提出对谐波的数量和/或最大频率进行限制,能够有效避免高频干扰对最终结果的不良影响。此外,本发明调整了基频范围,从而避免无法采集较高基频的问题,同时避免采集到通常情况下不会出现的较低基频。另外,本发明还优化了基频提取的分辨率,从而减少了计算量,同时能够保证基频确定的准确性。
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,对本领域的普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用它们的基本编程技能就能实现的。
因此,本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。
在通过软件和/或固件实现本发明的实施例的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图7所示的通用计算机700安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。
在图7中,中央处理模块(CPU)701根据只读存储器(ROM)702中存储的程序或从存储部分708加载到随机存取存储器(RAM)703的程序执行各种处理。在RAM703中,也根据需要存储当CPU701执行各种处理等等时所需的数据。CPU701、ROM702和RAM703经由总线704彼此连接。输入/输出接口705也连接到总线704。
下述部件连接到输入/输出接口705:输入部分706,包括键盘、鼠标等等;输出部分707,包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等等,和扬声器等等;存储部分708,包括硬盘等等;和通信部分709,包括网络接口卡比如LAN卡、调制解调器等等。通信部分709经由网络比如因特网执行通信处理。
根据需要,驱动器710也连接到输入/输出接口705。可拆卸介质711比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器710上,使得从中读出的计算机程序根据需要被安装到存储部分708中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质711安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图7所示的其中存储有程序、与装置相分离地分发以向用户提供程序的可拆卸介质711。可拆卸介质711的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM702、存储部分708中包含的硬盘等等,其中存有程序,并且与包含它们的装置一起被分发给用户。
还需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
虽然已经详细说明了本发明及其优点,但是应当理解在不脱离由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且,本申请的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者装置中还存在另外的相同要素。
Claims (20)
1.一种语音信号的处理装置,其特征在于,包括:
第一确定模块,用于对预定基频范围内多个候选基频中的每个候选基频,确定语音信号中该候选基频的多次谐波和,其中,在确定每个候选基频的谐波和时,所述第一确定模块根据该候选基频的一次谐波之外的其他谐波计算该候选基频的谐波和;
第二确定模块,用于根据所述多个候选基频的多次谐波和,从所述多个候选基频中确定所述语音信号的实际基频。
2.根据权利要求1所述的处理装置,其特征在于,在确定每个候选基频的谐波和时,所述第一确定模块用于根据数量小于或等于预定值的谐波确定该候选基频的谐波和。
3.根据权利要求1所述的处理装置,其特征在于,在确定每个候选基频的谐波和时,用于确定谐波和的谐波的最大频率小于或等于预定的频率门限值。
4.根据权利要求3所述的处理装置,其特征在于,所述频率门限值大于或等于所述基频范围的上限值的3倍。
5.根据权利要求1所述的处理装置,其特征在于,进一步包括:
第三确定模块,用于预先确定用于提取候选基频的分辨率;
基频提取模块,用于根据确定的所述分辨率从所述预定基频范围内提取所述多个基频,其中,所述分辨率满足以下条件:差值为所述分辨率的两个基频的谐波和不相等。
6.根据权利要求5所述的处理装置,其特征在于,所述第三确定模块用于:
根据带宽和频率门限值确定所述分辨率,其中,所述频率门限值为确定谐波和时所使用的多个谐波的频率上限值,所述带宽为所述语音信号的采样频率与快速傅里叶变换点值的比值。
7.根据权利要求1所述的处理装置,其特征在于,所述第二确定模块用于将所述多个候选基频中,谐波和最大的候选基频确定为所述实际基频。
8.根据权利要求1-7中任一项所述的处理装置,其特征在于,所述预定基频范围的下限值为50Hz至68Hz。
9.根据权利要求1-7中任一项所述的处理装置,其特征在于,所述预定基频范围的上限值为500Hz至902Hz。
10.一种语音信号的分析系统,其特征在于,包括:
语音采集设备,用于采集外界输入的语音信号;
第一确定模块,用于对预定基频范围内多个候选基频中的每个候选基频,确定所述语音信号中该候选基频的多次谐波和,其中,在确定每个候选基频的谐波和时,所述第一确定模块根据该候选基频的一次谐波之外的其他谐波计算该候选基频的谐波和;
第二确定模块,用于根据所述多个候选基频的多次谐波和,从所述多个候选基频中确定所述语音信号的实际基频;
分析模块,用于根据确定的所述实际基频对所述语音信号进行分析。
11.根据权利要求10所述的分析系统,其特征在于,在确定每个候选基频的谐波和时,所述第一确定模块用于根据数量小于或等于预定值的谐波确定该候选基频的谐波和。
12.根据权利要求10所述的分析系统,其特征在于,在确定每个候选基频的谐波和时,用于确定谐波和的谐波的最大频率小于或等于预定的频率门限值。
13.根据权利要求12所述的分析系统,其特征在于,所述频率门限值大于或等于所述基频范围的上限值的3倍。
14.一种语音信号的处理方法,其特征在于,包括:
对于预定基频范围内多个候选基频中的每个候选基频,确定语音信号中该候选基频的多次谐波和,其中,在确定每个候选基频的谐波和时,根据该候选基频的一次谐波之外的其他谐波计算该候选基频的谐波和;
根据所述多个候选基频的多次谐波和,从所述多个候选基频中确定所述语音信号的实际基频。
15.根据权利要求14所述的处理方法,其特征在于,在确定每个候选基频的谐波和时,根据数量小于或等于预定值的谐波确定该候选基频的谐波和。
16.根据权利要求14所述的处理方法,其特征在于,在确定每个候选基频的谐波和时,用于确定谐波和的谐波的最大频率小于或等于预定的频率门限值。
17.根据权利要求16所述的处理方法,其特征在于,所述频率门限值大于或等于所述基频范围的上限值的3倍。
18.根据权利要求14所述的处理方法,其特征在于,进一步包括:
预先确定用于提取候选基频的分辨率;
根据确定的所述分辨率从所述预定基频范围内提取所述多个基频,其中,所述分辨率满足以下条件:差值为所述分辨率的两个基频的谐波和不相等。
19.根据权利要求18所述的处理方法,其特征在于,预先确定用于提取候选基频的分辨率包括:
根据带宽和频率门限值确定所述分辨率,其中,所述频率门限值为确定谐波和时所使用的多个谐波的频率上限值,所述带宽为所述语音信号的采样频率与快速傅里叶变换点值的比值。
20.根据权利要求14所述的处理方法,其特征在于,从所述多个候选基频中确定所述语音信号的实际基频包括:
将所述多个候选基频中,谐波和最大的候选基频确定为所述实际基频。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310072649.XA CN104036785A (zh) | 2013-03-07 | 2013-03-07 | 语音信号的处理方法和装置、以及语音信号的分析系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310072649.XA CN104036785A (zh) | 2013-03-07 | 2013-03-07 | 语音信号的处理方法和装置、以及语音信号的分析系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104036785A true CN104036785A (zh) | 2014-09-10 |
Family
ID=51467531
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310072649.XA Pending CN104036785A (zh) | 2013-03-07 | 2013-03-07 | 语音信号的处理方法和装置、以及语音信号的分析系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104036785A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105469807A (zh) * | 2015-12-30 | 2016-04-06 | 中国科学院自动化研究所 | 一种多基频提取方法及装置 |
CN105551501A (zh) * | 2016-01-22 | 2016-05-04 | 大连民族大学 | 谐波信号基频估计算法及装置 |
CN107833580A (zh) * | 2016-09-11 | 2018-03-23 | 大陆汽车系统公司 | 基于输入噪声特性动态增加的噪声抑制 |
CN108074588A (zh) * | 2016-11-15 | 2018-05-25 | 北京唱吧科技股份有限公司 | 一种音高计算方法及装置 |
CN117116245A (zh) * | 2023-10-18 | 2023-11-24 | 武汉海微科技有限公司 | 声音信号的谐波生成方法、装置、设备及存储介质 |
-
2013
- 2013-03-07 CN CN201310072649.XA patent/CN104036785A/zh active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105469807A (zh) * | 2015-12-30 | 2016-04-06 | 中国科学院自动化研究所 | 一种多基频提取方法及装置 |
CN105469807B (zh) * | 2015-12-30 | 2019-04-02 | 中国科学院自动化研究所 | 一种多基频提取方法及装置 |
CN105551501A (zh) * | 2016-01-22 | 2016-05-04 | 大连民族大学 | 谐波信号基频估计算法及装置 |
CN105551501B (zh) * | 2016-01-22 | 2019-03-15 | 大连民族大学 | 谐波信号基频估计算法及装置 |
CN107833580A (zh) * | 2016-09-11 | 2018-03-23 | 大陆汽车系统公司 | 基于输入噪声特性动态增加的噪声抑制 |
CN107833580B (zh) * | 2016-09-11 | 2022-02-11 | 大陆汽车系统公司 | 基于输入噪声特性动态增加的噪声抑制 |
CN108074588A (zh) * | 2016-11-15 | 2018-05-25 | 北京唱吧科技股份有限公司 | 一种音高计算方法及装置 |
CN108074588B (zh) * | 2016-11-15 | 2020-12-01 | 北京唱吧科技股份有限公司 | 一种音高计算方法及装置 |
CN117116245A (zh) * | 2023-10-18 | 2023-11-24 | 武汉海微科技有限公司 | 声音信号的谐波生成方法、装置、设备及存储介质 |
CN117116245B (zh) * | 2023-10-18 | 2024-01-30 | 武汉海微科技有限公司 | 声音信号的谐波生成方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mekyska et al. | Robust and complex approach of pathological speech signal analysis | |
US8428945B2 (en) | Acoustic signal classification system | |
Gonzalez et al. | PEFAC-a pitch estimation algorithm robust to high levels of noise | |
CN106486131B (zh) | 一种语音去噪的方法及装置 | |
Deshmukh et al. | Use of temporal information: Detection of periodicity, aperiodicity, and pitch in speech | |
RU2418321C2 (ru) | Классификатор на основе нейронных сетей для выделения аудио источников из монофонического аудио сигнала | |
CN109034046B (zh) | 一种基于声学检测的电能表内异物自动识别方法 | |
EP2828856B1 (en) | Audio classification using harmonicity estimation | |
CN103646649A (zh) | 一种高效的语音检测方法 | |
Venter et al. | Automatic detection of African elephant (Loxodonta africana) infrasonic vocalisations from recordings | |
CN104078039A (zh) | 基于隐马尔科夫模型的家用服务机器人语音识别系统 | |
Pillos et al. | A Real-Time Environmental Sound Recognition System for the Android OS. | |
Fook et al. | Comparison of speech parameterization techniques for the classification of speech disfluencies | |
CN110880329A (zh) | 一种音频识别方法及设备、存储介质 | |
Ba et al. | BaNa: A hybrid approach for noise resilient pitch detection | |
CN104036785A (zh) | 语音信号的处理方法和装置、以及语音信号的分析系统 | |
JP6439682B2 (ja) | 信号処理装置、信号処理方法および信号処理プログラム | |
Radmard et al. | A new method of voiced/unvoiced classification based on clustering | |
Gómez-García et al. | On the design of automatic voice condition analysis systems. Part III: Review of acoustic modelling strategies | |
KR101008022B1 (ko) | 유성음 및 무성음 검출방법 및 장치 | |
CN114302301B (zh) | 频响校正方法及相关产品 | |
Sorokin et al. | Gender recognition from vocal source | |
Francis et al. | A scale invariant technique for detection of voice disorders using Modified Mellin Transform | |
CN107993666B (zh) | 语音识别方法、装置、计算机设备及可读存储介质 | |
Shome et al. | Non-negative frequency-weighted energy-based speech quality estimation for different modes and quality of speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20140910 |