CN1165365A - 音调提取方法和装置 - Google Patents
音调提取方法和装置 Download PDFInfo
- Publication number
- CN1165365A CN1165365A CN97103176A CN97103176A CN1165365A CN 1165365 A CN1165365 A CN 1165365A CN 97103176 A CN97103176 A CN 97103176A CN 97103176 A CN97103176 A CN 97103176A CN 1165365 A CN1165365 A CN 1165365A
- Authority
- CN
- China
- Prior art keywords
- tone
- voice signal
- frame
- frequency band
- pitch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 23
- 238000004364 calculation method Methods 0.000 claims abstract description 18
- 238000000034 method Methods 0.000 claims description 46
- 238000011156 evaluation Methods 0.000 abstract 1
- 239000013598 vector Substances 0.000 description 17
- 101000743788 Homo sapiens Zinc finger protein 92 Proteins 0.000 description 13
- 102100039046 Zinc finger protein 92 Human genes 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 13
- 230000035807 sensation Effects 0.000 description 11
- 238000001228 spectrum Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000013139 quantization Methods 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 239000002131 composite material Substances 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000011002 quantification Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 210000001260 vocal cord Anatomy 0.000 description 3
- 238000005311 autocorrelation function Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010189 synthetic method Methods 0.000 description 2
- 125000002015 acyclic group Chemical group 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F16—ENGINEERING ELEMENTS AND UNITS; GENERAL MEASURES FOR PRODUCING AND MAINTAINING EFFECTIVE FUNCTIONING OF MACHINES OR INSTALLATIONS; THERMAL INSULATION IN GENERAL
- F16H—GEARING
- F16H48/00—Differential gearings
- F16H48/20—Arrangements for suppressing or influencing the differential action, e.g. locking devices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- Mechanical Engineering (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Electrophonic Musical Instruments (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
一种音调提取方法和装置,可以精确地提取具有各种不同特征的语音信号的音调。利用HPF12和LPF16将以帧为基准限定频带的输入语音信号输出到用以求出自相关数据的自相关计算单元13、17。在音调强度/音调延迟计算单元14、18中计算音调延迟并归一化。计算利用HPF12和LPF16限定的输入语音信号的音调可靠性。选择装置20利用该音调延迟和估计参数选择由通过HPF12和LPF16限定的输入语音信号得到的其中一个参数。
Description
本发明涉及一种用于从输入的语音信号提取音调的方法和装置。
语音分类为发浊音的语音和发清辅音的语音。发浊音的语声是伴随着声带振动语音并被看作为周期性的振动。发清辅音的语音是不伴随声带振动的语音,并被看作为非周期性的噪声。在通常的语音中,发浊音的语音占语音的主要部分,而发清辅音的语音仅仅包括被称为清辅音的一些特殊的辅音。发浊音语音的周期是由声带的振动的周期确定的并被称为音调周期,而它的重复变化称为音调频率。音调周期和音调频率代表了决定音调或语音的音调的主要因素。因此,由原有的语音波形精确地取得音调周期(音调提取)对于发音过程分析和合成语音都是十分关键的。
作为一种提取音调的方法,已知一种相关处理方法,得到使用的原因在于,该相关处理方法能很好地克服波形相位畸变。相关处理方法的一个实例是一种自相关的方法,根据这种方法,概括地说,将输入的语音信号限定到预置的频率范围。接着求出预置数目的输入语音信号的采样的自相关数据,以便提取音调。为了按频带限定输入的语音信号,通常使用低通滤波器(LPF)。
假如在上述自相关法中使用在低频分量中包含脉冲音调的语音信号,利用一个L P F对该语音信号滤波就会除去该脉冲部分。因此,要从通过LPF的语音信号中提取音调以得到在低频分量中包含了脉冲音调的语音信号的正确音调是很困难的。
相反,如果因为该脉冲低频部分没有被除去,而在低频部分包含了脉冲音调的语音信号仅通过高通滤波器(HPF),以及如果该语音信号波形是包含大量噪声的波形,音调与噪声部分很难彼此区分,更不能得到正确的音调。
因此,本发明的目的是提供一种提取音调的方法和装置,能够正确地提取具有各种特征的语音信号的声调。
利用根据本发明的音调提取方法和装置,将输入的语音信号限定到多个不同频率的频带。由对于每一频带的语音信号的预置单位的自相关数据,检测峰值音调,以便求出音调强度和音调周期,利用音调强度,计算一确定音调强度可靠性的估计参数,并根据音调周期和该估计参数,计算多个不同频带中的一个频带的语音信号的音调。这样就能精确得到具有不同特征的语音信号音调,从而保证高精确地搜索音调。
图1示意表示利用根据本发明的音调提取装置的音调搜索装置的实施例。
图2示意表示根据本发明的音调提取装置。
图3是表示音调搜索的流程图。
图4是接着图3的音调搜索过程的音调搜索过程的流程图。
图5示意表示另一种音调搜索装置。
图6示意表示采用根据本发明的音调搜索装置的语音信号编码器。
下面参照附图详细解释本发明的优选实施例。
图1示意表示采用根据本发明的音调提取装置的音调搜索装置的结构。图2示意表示根据本发明的音调提取装置的结构。
图2中所示的音调提取装置包括:HPF12和LPF16,它们作为滤波装置,用于将输入的语音信号限定到多个不同频率的频带中的一些频带;以及自相关(数据)计算单元13、17,作为自相关(数据)计算装置,用于计算对于来自HPF12和LPF16的各自频带的每一语音信号的预置单位的自相关数据。音调提取装置还包括音调强度/音调延迟(lag)计算单元14,18,作为音调周期计算装置,用于由来自自相关(数据)计算单元13、17的自相关数据检测峰值,以便求出音调强度,计算音调周期;以及估计参数计算单元15、16,作为估计参数计算装置,用于利用来自音调强度/音调延迟计算单元14、18的音调强度计算确定音调强度可靠性的估量参数。音调提取装置还包含音调选择单元20,作为一个音调选择装置,用于选择多个不同频带的语音信号中的其中一个频带的语音信号。
下面解释图1中所示的音调搜索装置。
来自图1中的输入端1的输入的语音信号送到帧划分单元2。帧划分单元2将输入的语音信号划分为各个帧,每个帧具有预置数目的采样点。
现时帧音调计算单元3和其它帧音调计算单元4计算并输出一预置帧的音调,以及每个单元都包含图2中所示的音调提取装置。确切地说,现时帧音调计算单元3计算由帧划分单元所划分的现时帧的音调,而其它帧音调计算单元4由帧划分单元2所划分的与现时帧不同的一个帧的音调。
在本实施例中,利用帧划分单元2将输入信号波形划分为例如现时帧、过去帧和未来帧。现时帧是根据已确定的过去帧的音调来确定的,而所确定的现时帧的音调是根据过去帧和未来帧的音调来确定的。由过去、现时和将来帧正确地计算现时帧的音调的原理被称为延迟确定法。比较器/检测器5将利用现时帧检测单元3检测的峰值与由其它帧音调计算单元4计算的音调相比较,以便确定所检测的与所计算的音调是否满足预定的关系,以及假如满足预定的关系则检测峰值。
音调确定单元6由比较器/检测器5通过比较/检测得到的峰值确定现时帧的音调。
下面详细解释在构成现时帧检测单元3和其它帧计算单元4的如图2中的音调提取装置中的音调提取的过程。
来自输入端11的以帧为基准的输入的语音信号送到用于限定到两个频带的HPF12和LPF16。
具体地说,假如采样频率为8KHz(千赫)的输入的语音信号划分为256采样帧,用于将以帧为基准的输入的语音信号进行频带限定的HPF12的截止频率fch设置到3.2KHz。如果HPF12的输出和LPF16的输出分别是XH和XL,该输出XH和XL分别被限定到3.2到4.0KHz和0到1.0KHz。然而,假如输入的语音信号先前已按频带限定,则不适用这种方式。
自相关计算单元13、17利用快速付里叶变换(FFT)求出自相关数据,以便求出各个峰值。
音调强度/音调滞后计算单元14、18以分拣的方式按递减的顺序重新排列各峰值。所形成的函数表示为rH(n),rL(n)。假如按照由自相关计算单元13求出的自相关数据的峰值的总数和由自相关计算单元17求出的对应总数分别表示为NH和NL。由表达式(1)和(2)分别表示rH(n)和rL(n):
rH(0),rH(1),…rH(NH-1) …(1)
rL(0),rL(1),…rL(NL-1) …(2)
对于rH(n),rL(n)的音调滞后计算分别作为lag(n),lag(n)。这种音调延迟表示每个音调周期的采样数。
分别利用rH(0)和rL(0)去除rH(n)和rL(n)的峰值。用如下的表达式(3)和(4)来表示所形成的归一化的函数rAH(n),rEL(n):
1.0=rAEH(0)≥rAEH(1)≥rAE(H)(2)≥………≥rAEH(NH-1)
…(3)
1.0=rAEL(0)≥rAEL(1)≥rAE(L)(2)≥………≥rAEL(NL-1)
…(4)
在重新排列的rAEH(n)和rAEL(n)之中的最大值或峰值是rAEH(0)和rAEL(n)。
估计参数计算单元15、19分别计算由HPF12限定频带的输入的语音信号的音调可靠性的(或然率)probH以及由LPF16限定频带的输入的语音信号的音调可靠性的(或然率)probL。按如下表达式(5)和(6)分别计算音调可靠性的probH和probL:
probH=rAEH(1)/rAEH(2) …(5)
probL=rAEL(1)/rAEL(2) …(6)
根据由音调强度/音调延迟计算单元14、18计算的音调延迟和根据由估计参数计算单元15,19计算的音调可靠性音调选择单元20进行判断和选择,由利用HPF12限定频带的输入的语音信号得到的参数以及由利用LPF16限定频带的输入的语音信号得到的参数的估量参数用于从输入端11输入的语音信号的音调搜索。这时,根据如下的表1进行判断操作:
表1
如lagH×0.96<lagL<lagH×1.04则利用由LPF得到的参数。
此外,如NH>40则利用由LPF得到的参数,
此外,如probH/probL>1.2则利用由HPF得出的参数。
此外,利用由LPF得到的参数。
在上述判断处理操作过程中,进行该处理操作,以便使由利用LPF16限定频带的输入语音信号求出的音调具有更高的可靠性。
首先,将由LPF16限定频带的输入语音信号的音调延迟lagL与由HPF12限定频带的输入语音信号的音调延迟lagH相比较。如果lagH和lagL之间的差较小,则选择由LPF16限定频带的输入信号得到的参数。具体地说,假如由LPF16得到lagL的数值大于由HPF12得到的音调延迟lagH的0.96倍的一个数值并小于一等于音调延迟lagH的1.04倍的数值,则使用LPF16限定频带的输入语音信号的参数。
接着,将由HPF12得到的峰值的总数NH与一预置数进行比较,假如NH大于预置数,得出的判断是该音调不足,选择由LPF16得到的参数。确切地说,假如NH为40或更高,利用由HPF12限定频带的输入语音信号的参数。
然后,为了进行判断,将来自估计参数计算单元15的probH和来自估计参数计算单元19的probL进行比较。确切地说,如果用probL去除probH所得到数值为1.2或更大,则使用由HPF12限定频带的输入语音信号的参数。
假如通过上述三级处理操作不能得出判断结果,则使用由LPF16限定频带的输入语音信号的参数。
由音调选择单元20选择的参数在输出端21输出。
下面参照图3和4的流程图解释利用上述音调提取装置的音调搜索装置进行音调搜索的操作程序。
在图3中的步骤S1,将预置数目的语音信号划分为各个帧。在步骤S2和S3为了限定频带将所形成的以帧为基准的输入语音信号分别通过LPF和HPF。
然后,在步骤S4,计算限定频带的输入语音信号的自相关函数数据。在步骤S5,计算在步骤S3已限定频带的输入语音信号的自相关数据。
利用该自相关数据(在步骤S4求出的),在步骤S6检测多个或所有的峰值。将这些峰值进行分拣,以便求出rH(n)以及与rH(n)相关的lagH(n)。此外,将rH(n)归一化,以便提供函数rAEH(n)。利用在步骤S5求出的自相关函数数据,在步骤S7检测多个或所有的峰值。将这些峰值分拣,以便求出rL(n)和rL(n)。此外,通过使rL(n)归一化得到函数rAEL(0)。
在步骤S8,利用rAEH(1)和在步骤S6得到rAEL(n)中的rAEH(1),求出音调的可靠性。另一方面,在步骤S9,利用rAEL(1)和在步骤S7得到的rAEL(n)中的rAEL(1)求出音调的可靠性。
然后判断应当使用由LPF得到的参数还是使用由HPF得到的参数来对输入的语音信号提取音调。
首先,在步骤S10检查由LPF16得到音调logL的数值是否大于由HPF12得到的音调延迟lagH乘以0.96所得的数值以及小于一1.04与音调延迟lagH相乘所得的数值。如果结果是“YES”(是),程序转移到步骤S13,以便使用根据利用LPF限定频带的输入语音信号的自相关数据得到的参数。假如结果是“NO”(否),程序转移到步骤S11。
在步骤S11,检查通过HPF得到的峰值NH的总数是否小于40。假如结果是YES,程序转移到步骤S13,以便使用经过LPF得到的参数。假如结果是NO,过程转移到步骤S12。
在步骤S12,判断将代表音调可靠性的probH用probL去除所得的数值是否不大于1.2。如果在步骤S12,判断的结果是YES,过程转移到步骤S13,以便使用经过LPF得到的参数。假如结果是NO,过程转移到步骤S14,以便使用根据通过HPF限定频带的输入语音信号的自相关数据得到的参数。
利用这样选择的各个参数,进行如下的声调搜索。在如下的解释中,假设按照所选择的参数的自相关数据是r(n),自相关数据的归一化的函数是rAE(n),以及这种归一化的函数的重新排列的形式为rAEs(n)。
在图4的流程图中的步骤S15,判断在重新排列的峰值中间的最大峰值rAEs(0)是否大于K=0.4。假如结果是YES,即假如最大峰值rAEs(0)大于0.4,程序转移到步骤S16。假如结果是NO,即假如发现最大峰值rAEs(0)小于0.4,程序转移到S17。
在步骤S16,当在步骤S15的判断结果是YES时,对现时帧将P(0)设定为音调Po。这时,P(0)设定为一典型的音调Pt。
在步骤S17,判断在先前帧中是否有为0的音调P-1。假如结果是YES,即如果发现0的音调,程序转移到步骤S18。假如结果是NO,即如果发现存在音调,程序转移到步骤S21。
在步骤S18,判断最大峰值rAEs(0)是否大于K=0.25。如果结果是YES,即如果发现最大峰值rAES(0)大于K,程序转移到步骤S19。假如结果是NO,即如果发现最大峰值rAEs(0)小于K,程序转移到步骤S20。
在步骤S19,如果步骤S18的结果是YES,即如果最大峰值rAEs(0)大于K=0.25,将P(0)设定为现时帧的音调Po。
在步骤S20,如果步骤S18的结果是NO,即如果最大峰值rAES(0)小于K=0.25,判定在现时帧有为0的音调(Po=P(0))。
在步骤S21,根据步骤S17的结果,过去帧的音调P-1不为0,即有过去帧的音调判断,在过去音调P-1的峰值是否大于0.2。如果结果是YES,即如果过去音调P-1大于0.2,过程转移到步骤S22。假如结果是NO,即如果过去音调P-1小于0.2,程序转移到步骤S25,
在步骤S22,搜索到最大峰值rAES(P-1)在过去帧的音调P-1的80-120%的范围内。即对于先前发现的过去音调P-1搜索到rAES(0)在0≤N<j的范围内。
在步骤S23,判断对于在步骤S22搜索到现时帧的音调的选择值是否大于预置值0.3。如果结果是YES,程序转移到步骤S24,如果结果是NO,程序转移到步骤S28。
在步骤S24,根据在步骤S23的判断结果为YES,将对于现时帧的音调的选择值设定为现时帧的声调。
在步骤S25,根据步骤S21的结果即在过去帧P-1的值rAE(P-1)小于0.2,判断这时的最大峰值rAES(0)是否大于0.35。如果结果是YES,即如果判断最大峰值rAES(0)大于0.35,程序转移到步骤S26。如果结果是NO,即如果判断最大峰值rAE(0)小于0.35,程序转移到步骤S27。
如果步骤S25的结果是YES,即如果最大峰值rAEs(0)大于0.35,将P(0)设定为现时帧的音调Po。
如果步骤S25的结果是NO,即如最大峰值vAES(0)小于0.35,在步骤S27判断,在现时帧音调为零。
根据步骤S23的为NO的结果,在步骤S28搜索到最大峰值rAEs(Pt)在典型音调Pt的80-120%的范围内。即,搜索到rAEs(n)在对于先前发现的典型的音调Pt在0≤n<j的范围内。
在步骤S29,将在步骤S28搜索到的音调设定为现时帧的音调。
根据以该帧为依据对于每一按频带限定的频带的过去帧计算的音调,按照这样的方式确定现时帧的音调,以便计算估计参数,以及根据该估计参数确定基本的音调。为了更正确地求出现时帧的音调,以前由过去帧确定的现时帧的音调是根据现时帧和未来帧的音调确定的。
图5表示在图1和2中所示的音调搜索装置的另一实施例。在图5中所示的音调搜索装置中,在一现时音调计算单元60中进行限定现时帧的频带。输入的语音信号划分为各个帧。求出以帧为基准的输入语音信号的参数。按相似方式,在图5所示的音调搜索装置中,在另一现时音调计算单元61中进行现时帧的频带限定。输入的语音信号划分为各个帧。求出以帧为基准的输入语音信号的参数。求出以帧为基准的输入语音信号的参数并通过比较这些参数求出现时帧的音调。
同时,自相关计算单元42、47、52、57所进行的处理过程与图2中所示的自相关计算单元13、17进行的相似,而音调强度/音调延迟计算单元43、48、53、58进行的处理过程与该音调强度/音调延迟计算单元14、18进行的相类似。另一方面,估计参数计算单元44、49、54、59进行的处理过程与在图2中的估计参数计算单元15、19所进行的相似,音调选择单元33、41进行的处理过程与在图2中的音调选择单元20进行的相似,而比较器/检测器35进行的处理过程与图1中的比较器/检测器与进行的相似,音调确定单元36进行的处理过程与图1中的音调确定单元6进行的相似。
由输入端31输入的现时帧的语音信号利用HPF40和LPF45限定频率范围。然后,利用帧划分单元41、46将输入的语音信号划分为各个帧,从而按以帧为基准的输入语音信号输出。然后,在自相关计算单元42、47中计算自相关数据,同时音调强度/音调延迟计算单元43、48计算音调强度和音调和延迟。在估计参数计算单元44、49中计算作为估计参数的音调强度的比较用的数值。音调选择器33然后利用音调延迟或估计参数即经过HPF40限定频带的输入语音信号的参数或经过LPF45限定频带的输入语音信号的参数这两种参数的其中之一进行选择。
按相似的方式,利用HPF50和LPF55限定由输入端32输入的另一帧的语音信号的频率范围。然后,利用帧划分单元51、56将输入的语音信号划分为各个帧。其后在自相关计算单元52、57中计算自相关数据,同时音调强度/音调延迟计算单元53、58计算音调强度和音调延迟。此外,在估计参数计算单元54、59中计算作为估计参数的音调强度的比较用的数值。然后利用音调延迟或估计参数,即经过HPF50限定频带的输入语音信号的参数或经过LPF55限定频带的输入语音信号的参数这两种参数中的一种参数,音调选择器34进行选择。
比较器/检测器35将由现时帧音调计算单元60检测的峰值音调与由另一现时音调计算单元61计算的音调进行比较,以便检查了解这两个数值是否处在预置的范围内,并且当比较结果处在这一范围内时,检测该峰值。音调确定单元36由利用比较器/检测器35通过比较检测的峰值音调来确定现时帧的音调。
同时,以帧为基准的语音信号可以利用线性预测编码(LPC)来处理,以便产生短期预测偏差(residuals)(LPC偏差),该偏差然后用于计算音调,实现更精确地音调提取。
该确定程序和用于确定程序的各常数仅是说明性的,因而,为了选择更精确的参数,可以采用与在表1中所示不同的常数或确定程序。
在上述语音提取装置中,为了选择最佳的音调,利用HPF和LPF将以帧为基准的语音信号的频谱限定到两个频带。然而,所需频带的数目并不限于2。例如,还可以将该频谱限定到3或更多不同的频带,以及为了选择最佳音调计算各个频带的语音信号的音调值。这时,取代在表1中所示进行的确定过程,采用其它的确定过程,来选择3或更多个不同频带的输入语音信号的参数。
下面参照图6解释本发明的一个实施例,其中将上述的语音搜索装置应用到语音信号编码器。
图6中所示的语音信号编码器求出输入的语音信号的短期预测偏差,例如LPC偏差,进行正弦分析编码,例如谐波编码,利用相位~变换波形编码对输入的语音信号编码以及对输入的语音信号中发浊音的(V)部分和发清辅音(UV)部分进行编码。
在图6中所示的语音编码器中,提供到输入端101的语音信号在送到LPC分析量化单元113和LPC倒向滤波器电路111之前,利用高通滤波器(HPF)109进行滤波,以便除去不需要的频带的信号。
LPC分析量化单元113中的LPC分析电路132的对输入的波形信号提供一汉明窗,将256采样次序的输入波形信号的一段作为一个数据块,以便利用自相关法求出线性预测系数,或称α参数。帧形成间隔,作为一种数据输出单元,设定接近160采样。假如采样频率为8KHz,则帧的间隔为160采样或20毫秒。
来自LPC分析电路132的α参数送到一LSP变换电路133,用于将该参数变换为成对频谱(LSP)参数。这样将作为直接型滤波器系数求出的α参数例如变换为10个即5对LPS参数。这种变换例如是按照牛顿一拉普森法进行的。由α参数变换为LSP参数的原因在于,LSP参数在内插特性方面优于α参数。
由α参数向LSP参数变换电路133输出的LSP参数利用LSP量化器134进行矩阵换算或量化。在进行到矢量量化之前,或为了进行矩阵量化将多个帧汇聚在一起之前,可以求出帧与帧的差别。在本实施例中,将按每20ms(20ms为一帧)计算的2帧LSP参数汇聚到一起,以便对该参数进行矢量或矩阵量化。
在连接端102取出LSP量化器134的量化输出,即对于LSP量化的系数,同时,量化的LSP矢量送到LSP内插电路136。
LSP内插电路136对如上所述的每20ms或每40ms量化的LSP矢量进行内插,以便达到8倍(oatatuple)的速率。即按每2.5ms一次刷新LSP矢量。原因在于,如果余下的波形是利用谐波编码/解码法分析一合成的,合成的波形的包络线表示极为平滑的波形,因而,如果LSP系数每20ms一次急剧地变化,往往产生异样的声音。即,如果LPC系数每2.5ms一次逐渐地变化,可以防止这种异样的声音的产生。
为了利用按2.5ms为基准内插的LSP矢量进行倒向滤波,利用由LSP向α的变换电路137将LPS参数变换为α参数,该α参数例如是10级的直接型滤波器系数。由LSP向α的变换电路137的输出送到一按听觉加权的滤波器计算电路139,以便求出用于按听觉加权的系数。这些加权的数据送到下文将解释的按听觉加权的矢量量化器116以及第二编码单元120中的按听觉加权的滤波器125和按听觉加权的合成滤波器122。
正弦分析编码单元114例如谐波编码电路利用编码法例如谐波编码法分析LPC倒向滤波器111的输出。即,正弦分析编码单元114检测音调,计算每一谐波的幅值Am,鉴别发浊音(V)/发清辅音(UV)部分,以及将随音调变化的谐波的包络线或多个幅值Am变换为按维变换的常数。
在如图6中所示的正弦分析/编码单元114的说明性的实例中,预先假定该编码是常用的谐波编码。在多带激振(exaitation)编码(MBE)的情况下,根据这样一种假设即在相同的时刻(相同的数据块或帧)的每一帧带中存在发浊音的和发清辅音的部分来构成模型的。在另外的谐波编码过程中,对于在一数据块或一帧中的语音是发浊音的语音还是发清辅音的语音另外进行确定。同时,在如下的介绍中,对以帧为基准的V/UV进行确定。使得,如果在MBE的情况下各频带的总体为UV,这样的帧波认为是UV。
将来自输入端101的输入的语音信号和来自HPF109的信号分别提供到开环音调搜索单元141和正弦分析/编码单元114的过零计算器142,如图6中所示。将来自LPC倒向滤波器111的LPC偏差或线性预测偏差提供到正弦分析/编码单元114中的正交变换电路145。这一开环音调搜索单元141应用了本发明的上述音调搜索装置的一个实施例。开环音调搜索单元141取得输入信号的LPC偏差,以便利用开环搜索进行粗略音调搜索。提取的粗略音调数据送到高精度音调搜索单元146,以便通过闭环搜索进行高精度音调搜索,下文将予解释。与上述粗略音调数据一道由开环音调搜索单元141取出通过对LPC偏差的自相关数据进行归一化得到的归一化的最大自相关数值r(p),以便送到发浊音的/发清辅音的(V/UV)确定单元115。
正交变换电路145进行正交变换,例如离散的余弦变换(DCT),将时域的LPC偏差变换为频域的频谱幅值数据。正交变换电路145的输出送到高精度闭环音调搜索单元146以及用于估计频谱幅值或包络线的频谱估量单元148。
向高精度闭环音调搜索单元146提供由开环音调搜索单元141取出的较粗略的音调数据以及例如利用正交变换电路145由DFT变换的频域数据。高精度闭环音调搜索单元146按照0.2到0.5采样的间隔,围绕作为中心的粗略音调数据值对几个采样值进行摇摆式搜索,以便利用最适宜的小数点(浮点)得到精确的音调数据。作为一种精确搜索技术,利用合成法进行的所述的分析,以便选择音调,使得合成的功率谱,最接近原有声音的功率谱。来自高精度闭环音调搜索单元146的音调数据经过在输出端104处的开关118输出。
频谱估计单元148根据作为LPC偏差的正交变换输出的频谱幅值和音调,估计每个谐波的大小和按整体谐波的集合的频谱包络线,并输出该结果到发浊音的/发清辅音的(V/UV)确定单元115和按听觉加权的矢量量化器116。
发浊音/发清辅音(V/UV)确定单元115根据正交变换电路145的输出、来自高精度闭环音调搜索单元146的最佳音调、来自频谱估计单元148的频谱幅值数据、来自开环搜索单元141的归一化的最大自相关数值r(p)以及来自过零计数器412的过零计数值对于每一帧进行确定V/UV。以频带为基准的V/UV鉴别结果的边界位置还可用于对每一帧确定V/UV的条件。经过输出端105取出由V/UV确定单元115输出的确定结果。
频谱估计单元148的输出单元或矢量量化器116的输入单元设有数据数目变换单元(一种采样速率变化单元)。考虑到沿频率轴划分频带的数目随音调变化因而数据的数目是变化的,这一数据数目变换单元是用于确保恒定数量的包络线幅值数据|Am|的。即,如果现行的频带高至3400KHz,该现行的频带根据音调被划分为8至63个频带,由逐个频带得到的幅值数据|Am|的数目mMx+1在从8到63的范围内变化。因此,数据数目变换单元119将幅值数据的可变数目mMx+1变换到预置数目M,例如44。
在频谱估计单元148的输出端或在矢量量化器的输入端处提供的来自数据数目变换单元的预置数目例如44个的幅值数据或包络线数据,利用矢量量化器116按单位分组,每组由预置数目例如44的数据构成,并利用加权的矢量量化进行处理。利用按听觉加权的计算单元139的输出提供加权。在输出端103经过开关117取出来自矢量量化器116的包络线的系数数据。在进行上述加权矢量量化之前,由利用适当的峰值系数由预置数目的数据构成的矢量中可以取得帧间的差别。
第二编码单元120具有通常称为代码激振(excited)的线性预测(LELP)编码结构,并特别适用于对输入的语音信号的发清辅音部分进行编码。在用于发清辅音部分的CELP编码结构中,与发清辅音的语音部分的LPC偏差对应的噪声输出作为噪声码薄的代表性的数值输出或所谓的随机的码薄121经过增益电路126送到按听觉加权的合成滤波器122。按听觉加权的合成滤波器122对输入的噪声进行LPC合成,以便将形成的经加权的发清辅音信号送到减法器123。向减法器123提供与由输入端101经过高通滤波器(HPF)109提供的语音信号相对应的以及由按听觉加权的滤波器125进行按听觉加权的信号,以便输出一其与来自合成滤波器122的信号的差或误差。这一误差送到一距离计算电路124,用以计算该距离,以及利用噪声码薄121搜索使误差最小的代表性的数值矢量。按照这种方式,沿时间轴的波形采用由合成法进行的分析,应用闭环搜索进行矢量量化。
按照对于采用CELP编码结构的来自第二编码单元120的发清辅音(UV)部分的数据,取出来自噪声码薄121的码薄的形状系数和来自增益电路126的码薄的增益系数。作为来自噪声码薄121的UV数据,形状系数经过开关127s送到输出端107s,作为增益电路126的UV数据,增益系数经过开关127g送到输出端107g。
根据来自V/UV确定单元115的结果对开关127s、127g和开关117、118进行开/关控制。当现时传输的帧的语音信号的V/UV的确定结果是发浊音(V)部分时,开关117、118接通,而当现时传输的帧的语-音信号的V/UV确定结果是发清辅音(UV)部分时,开关127s、127g接通。
Claims (12)
1、一种音调提取装置,包含:
滤波器装置,用于将输入的语音信号限定到多个不同的频带;
自相关计算装置,用于对于来自所述滤波器装置的每个频带的语音信号的预置单位的自相关数据进行计算;
音调周期计算装置,用于检测来自所述自相关计算装置的自相关数据的峰值,求出音调强度计算音调周期;
估计参数计算装置,用于利用音调周期计算装置的音调强度来计算确定音调可靠性的估计参数;以及
音调选择装置,用于根据来自所述音调周期计算装置的音调周期和来自所述估计参数计算装置的估计参数。选择其中一个所述频带的语音信号的音调。
2、如权利要求1所述的音调提取装置,其中所述的估计参数计算装置计算出所述音调强度的一个比较用的数值。
3、如权利要求1所述的音调提取装置,其中所述滤波器装置利用高通滤波器和低通滤波器输出限定到两个频带的语音信号。
4、如权利要求1所述的音调提取装置,其中将以帧为基准的语音信号输入到所述滤波器装置。
5、如权利要求1所述的音调提取装置,其中所述的滤波器装置使用至少一个低通滤波器。
6、如权利要求5所述的音调提取装置,其中所述的滤波器装置使用一个低通滤波器,用以输出一个无高频部分和输入的语音信号本身。
7、如权利要求6所述的音调提取装置,其中所述的滤波器装置使用一个高通滤波器和一个低通滤波器,用以输出一个限定到两个频带的语音信号。
8、如权利要求1所述的音调提取装置,其中所述的滤波器装置输出以帧为基准的限定到多个频带的语音信号。
9、如权利要求8所述的音调提取装置,其中所述的滤波器装置使用一个高通滤波器和一个低通滤波器,用以输出以帧为基准限定到两个频带的语音信号。
10、一种音调整提取方法,包含:
滤波步骤,将输入的语音信号限定到多个不同频率的频带;
自相关计算步骤,对于每个频带的语音信号计算预置单位的自相关数据;
音调周期计算步骤,检测来自自相关数据的峰值,求出音调强度计算音调周期;
估计参数计算步骤,利用音调强度计算确定音调强度的可靠性的估计参数;以及
音调选择步骤,根据音调周期和估计参数选择其中一个频带的语音信号的音调。
11、如权利要求10所述的音调提取方法,其中所述的估计参数计算步骤包含计算所述音调强度的比较用的数值。
12、如权利要求10所述的音调提取方法,其中所述的滤波步骤利用一高通滤波器和一低通滤波器输出限定到两个频带的语音信号。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP01643396A JP3840684B2 (ja) | 1996-02-01 | 1996-02-01 | ピッチ抽出装置及びピッチ抽出方法 |
JP16433/1996 | 1996-02-01 | ||
JP16433/96 | 1996-02-01 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1165365A true CN1165365A (zh) | 1997-11-19 |
CN1146862C CN1146862C (zh) | 2004-04-21 |
Family
ID=11916109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB971031762A Expired - Fee Related CN1146862C (zh) | 1996-02-01 | 1997-02-01 | 音调提取方法和装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US5930747A (zh) |
JP (1) | JP3840684B2 (zh) |
KR (1) | KR100421817B1 (zh) |
CN (1) | CN1146862C (zh) |
MY (1) | MY120918A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1324556C (zh) * | 2001-08-31 | 2007-07-04 | 株式会社建伍 | 生成基音周期波形信号的装置和方法及处理语音信号的装置和方法 |
CN101199002B (zh) * | 2005-06-09 | 2011-09-07 | 株式会社A.G.I. | 检测音调频率的语音分析器和语音分析方法 |
CN1848240B (zh) * | 2005-04-12 | 2011-12-21 | 佳能株式会社 | 基于离散对数傅立叶变换的基音检测方法、设备和介质 |
CN102334156A (zh) * | 2009-02-27 | 2012-01-25 | 松下电器产业株式会社 | 音调判定装置及音调判定方法 |
CN103165133A (zh) * | 2011-12-13 | 2013-06-19 | 联芯科技有限公司 | 一种最大相关系数的优化方法及其装置 |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0971337A4 (en) * | 1998-01-26 | 2001-01-17 | Matsushita Electric Ind Co Ltd | METHOD AND DEVICE FOR HIGHLIGHTING THE BASIC LANGUAGE FREQUENCY |
GB9811019D0 (en) * | 1998-05-21 | 1998-07-22 | Univ Surrey | Speech coders |
US6415252B1 (en) * | 1998-05-28 | 2002-07-02 | Motorola, Inc. | Method and apparatus for coding and decoding speech |
US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
US6418407B1 (en) * | 1999-09-30 | 2002-07-09 | Motorola, Inc. | Method and apparatus for pitch determination of a low bit rate digital voice message |
AU2001260162A1 (en) * | 2000-04-06 | 2001-10-23 | Telefonaktiebolaget Lm Ericsson (Publ) | Pitch estimation in a speech signal |
US6640208B1 (en) * | 2000-09-12 | 2003-10-28 | Motorola, Inc. | Voiced/unvoiced speech classifier |
DE10123366C1 (de) * | 2001-05-14 | 2002-08-08 | Fraunhofer Ges Forschung | Vorrichtung zum Analysieren eines Audiosignals hinsichtlich von Rhythmusinformationen |
KR100393899B1 (ko) | 2001-07-27 | 2003-08-09 | 어뮤즈텍(주) | 2-단계 피치 판단 방법 및 장치 |
KR100463417B1 (ko) * | 2002-10-10 | 2004-12-23 | 한국전자통신연구원 | 상관함수의 최대값과 그의 후보값의 비를 이용한 피치검출 방법 및 그 장치 |
US6988064B2 (en) * | 2003-03-31 | 2006-01-17 | Motorola, Inc. | System and method for combined frequency-domain and time-domain pitch extraction for speech signals |
KR100590561B1 (ko) * | 2004-10-12 | 2006-06-19 | 삼성전자주식회사 | 신호의 피치를 평가하는 방법 및 장치 |
DE602005023503D1 (de) * | 2004-10-28 | 2010-10-21 | Panasonic Corp | Skalierbare codierungsvorrichtung, skalierbare decodierungsvorrichtung und verfahren dafür |
KR100634572B1 (ko) * | 2005-04-25 | 2006-10-13 | (주)가온다 | 오디오 데이터 자동 생성 방법 및 이를 이용한 사용자단말기 및 기록매체 |
JP4738260B2 (ja) * | 2005-12-20 | 2011-08-03 | 日本電信電話株式会社 | 予測遅延探索方法、その方法を用いた装置、プログラム、および記録媒体 |
KR100724736B1 (ko) | 2006-01-26 | 2007-06-04 | 삼성전자주식회사 | 스펙트럴 자기상관치를 이용한 피치 검출 방법 및 피치검출 장치 |
JP4632136B2 (ja) * | 2006-03-31 | 2011-02-16 | 富士フイルム株式会社 | 楽曲テンポ抽出方法、装置及びプログラム |
KR100735343B1 (ko) * | 2006-04-11 | 2007-07-04 | 삼성전자주식회사 | 음성신호의 피치 정보 추출장치 및 방법 |
DE602006015328D1 (de) * | 2006-11-03 | 2010-08-19 | Psytechnics Ltd | Abtastfehlerkompensation |
JP5040313B2 (ja) * | 2007-01-05 | 2012-10-03 | 株式会社Jvcケンウッド | 音声信号処理装置、音声信号処理方法、および、音声信号処理プログラム |
US8620646B2 (en) * | 2011-08-08 | 2013-12-31 | The Intellisis Corporation | System and method for tracking sound pitch across an audio signal using harmonic envelope |
US8645128B1 (en) * | 2012-10-02 | 2014-02-04 | Google Inc. | Determining pitch dynamics of an audio signal |
EP3306609A1 (en) * | 2016-10-04 | 2018-04-11 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for determining a pitch information |
CN109448749B (zh) * | 2018-12-19 | 2022-02-15 | 中国科学院自动化研究所 | 基于有监督学习听觉注意的语音提取方法、系统、装置 |
CN110379438B (zh) * | 2019-07-24 | 2020-05-12 | 山东省计算中心(国家超级计算济南中心) | 一种语音信号基频检测与提取方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3617636A (en) * | 1968-09-24 | 1971-11-02 | Nippon Electric Co | Pitch detection apparatus |
-
1996
- 1996-02-01 JP JP01643396A patent/JP3840684B2/ja not_active Expired - Fee Related
-
1997
- 1997-01-24 US US08/788,194 patent/US5930747A/en not_active Expired - Lifetime
- 1997-01-28 MY MYPI97000322A patent/MY120918A/en unknown
- 1997-01-29 KR KR1019970002641A patent/KR100421817B1/ko not_active IP Right Cessation
- 1997-02-01 CN CNB971031762A patent/CN1146862C/zh not_active Expired - Fee Related
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1324556C (zh) * | 2001-08-31 | 2007-07-04 | 株式会社建伍 | 生成基音周期波形信号的装置和方法及处理语音信号的装置和方法 |
CN1848240B (zh) * | 2005-04-12 | 2011-12-21 | 佳能株式会社 | 基于离散对数傅立叶变换的基音检测方法、设备和介质 |
CN101199002B (zh) * | 2005-06-09 | 2011-09-07 | 株式会社A.G.I. | 检测音调频率的语音分析器和语音分析方法 |
CN102334156A (zh) * | 2009-02-27 | 2012-01-25 | 松下电器产业株式会社 | 音调判定装置及音调判定方法 |
CN103165133A (zh) * | 2011-12-13 | 2013-06-19 | 联芯科技有限公司 | 一种最大相关系数的优化方法及其装置 |
Also Published As
Publication number | Publication date |
---|---|
MY120918A (en) | 2005-12-30 |
JP3840684B2 (ja) | 2006-11-01 |
KR100421817B1 (ko) | 2004-08-09 |
JPH09212194A (ja) | 1997-08-15 |
US5930747A (en) | 1999-07-27 |
CN1146862C (zh) | 2004-04-21 |
KR970061590A (ko) | 1997-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1146862C (zh) | 音调提取方法和装置 | |
CN1248190C (zh) | 快速频域音调估计方法和装置 | |
JP3277398B2 (ja) | 有声音判別方法 | |
CN1266674C (zh) | 闭环多模混合域线性预测语音编解码器和处理帧的方法 | |
US7027979B2 (en) | Method and apparatus for speech reconstruction within a distributed speech recognition system | |
US6963833B1 (en) | Modifications in the multi-band excitation (MBE) model for generating high quality speech at low bit rates | |
CA2309921C (en) | Method and apparatus for pitch estimation using perception based analysis by synthesis | |
CN1922659A (zh) | 编码模式选择 | |
CN1265217A (zh) | 在语音通信系统中语音增强的方法和装置 | |
JP3687181B2 (ja) | 有声音/無声音判定方法及び装置、並びに音声符号化方法 | |
CN1920947A (zh) | 用于低比特率音频编码的语音/音乐检测器 | |
US6243672B1 (en) | Speech encoding/decoding method and apparatus using a pitch reliability measure | |
US6456965B1 (en) | Multi-stage pitch and mixed voicing estimation for harmonic speech coders | |
Hsu et al. | Robust voice activity detection algorithm based on feature of frequency modulation of harmonics and its DSP implementation | |
JPH10105195A (ja) | ピッチ検出方法、音声信号符号化方法および装置 | |
JP2779325B2 (ja) | ボコーダーにおける前処理の相関関係式を用いたピッチ検索時間短縮方法 | |
CN1280784C (zh) | 基于多峰提取的语音编码刺激方法 | |
US6438517B1 (en) | Multi-stage pitch and mixed voicing estimation for harmonic speech coders | |
CN1297952C (zh) | 声音增强方法和声音增强系统 | |
CN1262991C (zh) | 跟踪准周期性信号的相位的方法和设备 | |
US6278971B1 (en) | Phase detection apparatus and method and audio coding apparatus and method | |
CN114724589A (zh) | 语音质检的方法、装置、电子设备和存储介质 | |
Hu et al. | A pseudo glottal excitation model for the linear prediction vocoder with speech signals coded at 1.6 kbps | |
KR100757366B1 (ko) | Zinc 함수를 이용한 음성 부호화기 및 그의 표준파형추출 방법 | |
JP2000268510A (ja) | 符号化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20040421 Termination date: 20140201 |