CN1169570A - 语音处理装置中的音调提取方法 - Google Patents

语音处理装置中的音调提取方法 Download PDF

Info

Publication number
CN1169570A
CN1169570A CN97102545A CN97102545A CN1169570A CN 1169570 A CN1169570 A CN 1169570A CN 97102545 A CN97102545 A CN 97102545A CN 97102545 A CN97102545 A CN 97102545A CN 1169570 A CN1169570 A CN 1169570A
Authority
CN
China
Prior art keywords
tone
frame
residual signal
residual
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN97102545A
Other languages
English (en)
Other versions
CN1146861C (zh
Inventor
李时雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN1169570A publication Critical patent/CN1169570A/zh
Application granted granted Critical
Publication of CN1146861C publication Critical patent/CN1146861C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

本发明提供了一种从每一个帧中提取至少一个音调的方法,包括,产生展现帧内语音的高和低的若干残留信号以及把所产生的残留信号中的满足预定条件的残留信号作为音调来形成的步骤;在产生残留信号的步骤中,利用有限脉冲响应(FIR)滤波器和STREAK滤波器组合的FIR-STREAK滤波器对语音进行滤波,然后把滤波的结果作为残留信号输出;在形成音调的步骤中,只把其振幅是超过预定值的残留信号和其时间间隔是在预定时间期间内的残留信号作为音调来形成。

Description

语音处理装置中的 音调提取方法
本发明涉及在诸如编码和合成语音这样的处理期间提取语音音调(speech pitch)的方法,尤其涉及有效地提取连续语音音调的音调提取方法。本发明基于在此被作为参考文献的韩国专利申请23341/1996。
由于对通信终端的需求随科学技术的发展而迅速增多,通信线路越来越不足。为了解决这一问题,提出了以低于84千位/秒的位速率编码语音的方法。但是,在按照这些编码方法处理语音时,会出现音品(tone quality)变劣的问题。许多研究者为了在以低位速率处理语音的同时改善音品正在进行广泛的研究。
为了改善音品,必需改善诸如音程(musical interval)、音量和音色(timbre)这样的心理属性(psycholegical properties),与此同时,还必需接近原声特性地再现相应于这些心理属性的物理属性(physical properties)、例如音调、振幅和波形结构。音调在频率域中被称为基频或音调频率,而在空间域(spatial area)中被称为音程或音调。音调在判断说话人的性别和区分所发出话音的发话声和无话声方面是必不可少的参数,尤其在以低位速率编码语音时更是如此。
目前有三种主要的提取音调方法。它们是空间域提取方法、频率域提取方法以及空间域和频率域提取方法。空间域提取方法的代表是自相关方法,频率域提取方法的代表是倒频谱(cepstrum)方法,空间域和频率域提取方法的代表是平均值微分函数(AMDF)方法和结合了线性预测编码(LPC)和AMDF的方法。
在上述普通方法中,语音波形是通过把发话声应用于音调的每一个音程来再现的,音调在其从一帧中被提取之后在处理语音时被重复再现。但是,在真实的连续语音中,声音的谐和(vocal chords)特性或发声(sound)在音素(phoneme)变化时会发生改变,由于干扰,音程即使在几十毫秒的一帧中也会出现敏感的改变。在相邻音素彼此影响下使具有不同频率的语音波形在连续语音中共存在一个帧内,就会出现音调提取误差。例如,在语音的开头和结尾、在原声发生变化、在静音(mute)和发话声共存的帧中、或在无声辅音和发话声共存的帧中会都出现音调提取误差。如上所述,普通方法对于连续语音是有缺陷的。
因此,本发明的目的是提供在语音处理装置中处理语音的同时改善语音质量的方法。
本发明的另一个目的是提供消除在语音处理装置中提取语音的音调时出现的误差的方法。
本发明的再一个目的是提供有效地提取连续语音的音调的方法。
为了实现上述目的,根据本发明的方法从每一预定的帧提取至少一个音调(pitch)。
本发明的音调提取方法包括产生展现帧内语音的高和低的若干残留信号以及在所产生的残留信号中提取满足预定条件的残留信号作为音调来形成的步骤。在产生残留信号的步骤中,利用由有限脉冲响应(finite impulseresponse(FIR))滤波器和STREAK滤波器的组合的FIR-STREAK(Simplifiedtechnique for recursive estimation auto correlation K Parameter(用于递归估算自相关K参数的简化技术))滤波器对语音进行滤波,然后把形成的滤波结果作为残留信号。在形成音调的步骤中,只把其振幅超过预定值的残留信号和其时间间隔在预定时间期间内的残留信号作为音调来形成。
参考附图,结合最佳实施例对本发明进行详细描述:
图1是表示本发明的FIR-STREAK滤波器的结构的方框图;
图2a-图2d是表示FIR-STREAK滤波器产生的残留信号的波形图;
图3是表示本发明的音调提取方法的流程图;
图4a-图4I是利用本发明的方法提取的音调脉冲的波形图。
由四个日本播音员说出的32个句子的连续语音用作本发明的语音数据(见表1)。
[表1]
因素 发言者 发言时间(秒) 简单句的数目 元音数目 无声辅音数目
    4     3.4     16     145     34
    4     3.4     16     145     34
参看图1和2,FIR-STREAK滤波器产生结果信号fM(n)和gM(n),它们是对输入语音信号X(n)进行滤波的结果。在输入类似图2a和图2c所示的语音信号的情况下,该FIR-STREAK滤波器输出类似图2b和图2d的残留信号。利用FIR-STREAK滤波器获得了提取音调所需的残留信号RP。我们把从残留信号RP获得的音调叫做“单个音调脉冲(IPP)”。STREAK滤波器用由前误差信号fi(n)和后误差信号gi(n)构成的公式来表示。
AS=fi(n)2+gi(n)2
  =-4ki×fi-1(n)×gi-1(n-1)    (1)
  +(1+ki)2×[fi-1(n)2×gi-1(n-1)2]
以下通过求公式(1)对ki的偏微分来获得公式(2)的STREAK系数。
以下的公式(3)是FIR-STREAK滤波器的传递函数。 ki = 2 × f i - 1 ( n ) × g i - 1 ( n - 1 ) [ f i - 1 ( n ) 2 ] [ g i - 1 ( n - 1 ) ] 2 - - - ( 2 ) Hs ( z ) = Σ i = 0 MF bi z - 1 Σ i = 0 MS ki z - 1 - - - ( 3 )
公式(3)中的MF和bi分别是FIR滤波器的次数(degree)和系数。MS和ki分别是STREAK滤波器的次数(degree)和系数。于是通过FIR-STREAK滤波器输出了是IPP的关键的RP。
一般来说,在由3.4KHz的低通滤波器(LPF)限制的频带内有3或4个共振峰(formants)。在格式滤波器(lattice filter)中,为了提取共振峰,通常使用8至10的滤波次数(degrees)。如果本发明的STREAK滤波器具有8至10的滤波次数,就将清晰地输出残留信号RP。本发明采用次数为10的STREAK滤波器。在本发明中,考虑到音调频率的频带是80至370Hz,把FIR滤波器的次数MF定为10≤MF≤100,把限带频率FP定为400Hz≤FP≤1KHz,以便能够输出残留信号RP(residual signal Rp)。
通过这一实验,当MF和FP分别是80次和800Hz时,RP清晰地在IPP的位置上出现。但是,在语音的开头或结尾,RP往往不清晰地出现。这说明音调频率受到语音开头或结尾处的第一个共振峰的严重影响。
参看图3,本发明的音调提取方法主要分成3个步骤。
第一步骤300是利用FIR-STREAK滤波器对一个帧的语音进行滤波。
第二步骤(从310至349或从310至369)是在从FIR-STREAK滤波器滤波的信号中选择了满足预定条件的信号之后输出若干个残留信号。
第三个步骤(从350至353,或从370至374)是从所产生的残留信号和根据其与其前面和后面的残留信号的关系被进行校正和内插的残留信号中提取音调。
在图3中,由于相同的处理方法被用来从EN(n)和Ep(n)中提取IPP,所以以下将把描述限制为从Ep(n)提取IPP的方法。
利用通过顺序地替换大振幅的残留信号获得的A来调整Ep(n)的振幅。作为根据本发明的语音数据获得MF的结果,RP处的MF大于0.5。因此,把满足条件Ep(n)>A和MF>0.5的残留信号作为RP,把在音调频率的基础上其时间间隔L是2.7毫秒≤L≤12.5毫秒的RP的位置作为IPP(Pi,I=0,1......,M)的位置。为了校正和内插该RP位置的丢失(omission),首先必需根据PM,该先前帧的最后IPP位置和表示在当前帧内从0至P0的时间间隔的ξP获得IB(=N-PMP)。然后,为了防止平均音调的半音调(half pitch)或双音调(double pitch),必需在各IB之间的间隔是平均音程({P0+P1+......+PM}/M)的50%或150%时校正Pi位置。但是,对于元音紧跟在辅音之后的日语语音,在先前帧内有辅音的情况下适用以下的公式(4),而在先前帧内没有辅音的情况下适用公式(5)。
0.5×IA1≥IB,IB≥1.5×IA1  (4)
0.5×IA2≥IB,IB≥1.5×IA2  (5)
在此IA1=(PM-PO)/M以及IA2={IB+(PM-Pi)}/M。
IPP的间隔(IPi)、平均间隔(IAV)和偏离(DPi)根据以下的公式(6)来获得,但ξP以及帧的结尾和PM之间的间隔没有被包括在DPi内。在0.5×IAV≥IPi或IPi≥1.5×IAV的情况下利用以下的公式(7)进行位置校正和内插。
IPi=Pi-Pi-1
IAV=(PM-PO)/M
DPi=IAv-IPi                           (6) Pi = P i - 1 + P i + 1 2 - - - ( 7 )
在此i=1,2,......,M。
把公式(4)或(6)应用于EN(n)就获得Pi,在Pi处进行位置校正和内插。必需选择利用这种方法获得在时间轴的正侧和负侧的一个Pi。因此在几十毫秒(scores of millisecondy)的帧内的音程逐渐地变化,所以在此选择其位置不迅速发生变化的Pi。换句话说,利用以下的公式(8)估算Pi间隔相对于IAV的变化,在CP≤CN的情况下选择在正侧的Pi,在CP>CN的情况下选择在负侧的Pi。此处的CN是从PN(n)获得的估算值。 C P = Σ i = 1 M IPi I Av - - - ( 8 )
但是,通过选择在正侧和负侧的一个Pi,就出现了时间差(ξPN)。在为了补偿这一差值而选择负Pi的情况下,利用以下的公式来重新校正位置。
Pi=PNi+(ξPN)                     (9)
有关于校正的Pi被重新内插的情形的例子存在,但在图4中没有被重新内插。如图4所示,语音波形(a)和(g)表示振幅电平在连续的帧内减小。波形(d)表示振幅电平是低的。波形(j)表示音素(phoneme)发生变化的转换。在这些波形中,由于难于利用信号的相关性来编码信号,所以RP往往容易被遗漏。因此,会出现许多不能够清楚地提取Pi的情况。如果在这些情况下不采取其它防范措施就利用Pi来合成语音,就会使语音质量恶化。但是,由于利用本发明的方法对Pi进行校正和内插,所以如图4的(c)、(f)、(i)和(l)所示清楚地提取了IPP。
IPP的提取率AER1利用公式(10)来获得,其中的“-bij”和“Cij”是提取误差。“-bij”表示没有从真正的IPP存在的位置提取到IPP。“Cij”表示从真正的IPP不存在的位置提取IPP。
在此,aij是被测IPP的个数。T是其中有IPP存在的帧的数目。m是语音样值(samples)数。 AER 1 = Σ j - 1 m Σ i - 1 T [ a ij - ( | b ij | + c ij ) ] Σ j - 1 m Σ i - 1 T a ij - - - ( 10 )
作为本发明的实验结果,被测IPP的个数在男姓情况下是3483,在女性情况下是5374。在男姓情况下被提取的IPP数是3343,在女姓情况下是4566。因此,IPP提取率在男性情况下是96%,在女姓情况下是85%。
把本发明的音调提取方法与已有技术相比,有以下结果。
根据从诸如自相关方法和倒频谱方法获取平均音调的方法,提取音调的误差出现在音节(syllable)的开头和结尾、在音素转换处、在静音(mute)和发话声共存的帧内、或在无声辅音和发话声共存的帧内。例如,自相关方法不从无声辅音和发话声共存的帧提取音调,而倒频谱方法从无声辅音提取音调。如上所述,音调提取误差是错误判断发话声/无声音的结果。除此之外,由于把无声音和发话声共存的帧用作为只是一种无声音源或发话声源,所以也会造成声音质量的恶化。
在通过对以几十毫秒为单位的连续语音波形进行分析来提取平均音调的方法中,出现了各帧之间的音程比其它音程宽得多或窄得多的现象。在本发明的IPP提取方法中,音程的变化可被控制,并且即使在无声辅音和发话声共存的帧内也能够清楚地获得音调的位置。表2基于本发明的语音数据的本发明的音调提取率如表2所示。
  自相关方法   倒频谱方法   本发明
  男声的音调提取率(%)     89     92     96
  女声的音调提取率(%)     80     86     85
如上所述,本发明提供了能够控制由声音属性的中断或声源的转换造成的音程变化的音调提取方法。该方法抑制了在非周期语音波形中、或在语音的开头或结尾处、或在静音和发话声共存的帧内、或在无声辅音和发话声共存的帧内出现的音调提取误差。
因此,应当清楚本发明不受限于在此作为实施本发明的最好方式而被公开的实施例,而且,本发明也不受限于说明书中所描述的具体实施例,本发明的保护范围以本发明的权利要求所限定。

Claims (6)

1、一种在语音处理装置中提取语音音调的方法,该方法包括,从每一预定帧中提取至少一个音调。
2、如权利要求1的方法,其中,包括以下步骤:
产生展现帧内语音的高和低的若干残留信号;和
把所产生的残留信号中的满足预定条件的残留信号作为音调来形成。
3、如权利要求2的方法,其中,产生该残留信号的步骤包括以下步骤:
利用FIR-STREAK滤波器对语音进行滤波;该FIR-STRGAK滤波器是有限脉冲响应FIR滤波器和STREAK滤波器的组合;和
把滤波产生的结果作为残留信号。
4、如权利要求2的方法,其中,形成音调的步骤包括把其振幅超过预定值的残留信号和其时间间隔在预定时间期间内的残留信号作为音调来形成的步骤。
5、一种在语音处理装置中提取以帧为单位的连续语音的音调的方法,该语音装置具有有限脉冲响应-STREAK滤波器,它是有限脉冲响应滤波器和STREAK滤波器的组合,包括以下步骤:
利用有限脉冲响应滤波器滤波以帧为单位的连续语音;
产生满足预定条件的被滤波的信号作为若干个残留信号;
根据该帧的其余残留信号与其前面/后面残留信号的关系内插这些其余的残留信号;和
提取所产生的或被内插的残留信号作为音调。
6、如权利要求5的方法,其中,其振幅大于预定值的被滤波的信号和其时间间隔在预定时间期间内的被滤波的信号被作为音调产生。
CNB971025452A 1996-06-24 1997-02-26 语音处理装置中的音调提取方法 Expired - Lifetime CN1146861C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR23341/96 1996-06-24
KR23341/1996 1996-06-24
KR1019960023341A KR100217372B1 (ko) 1996-06-24 1996-06-24 음성처리장치의 피치 추출방법

Publications (2)

Publication Number Publication Date
CN1169570A true CN1169570A (zh) 1998-01-07
CN1146861C CN1146861C (zh) 2004-04-21

Family

ID=19463123

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB971025452A Expired - Lifetime CN1146861C (zh) 1996-06-24 1997-02-26 语音处理装置中的音调提取方法

Country Status (5)

Country Link
US (1) US5864791A (zh)
JP (1) JP3159930B2 (zh)
KR (1) KR100217372B1 (zh)
CN (1) CN1146861C (zh)
GB (1) GB2314747B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100217372B1 (ko) 1996-06-24 1999-09-01 윤종용 음성처리장치의 피치 추출방법
JP4641620B2 (ja) * 1998-05-11 2011-03-02 エヌエックスピー ビー ヴィ ピッチ検出の精密化
JP2000208255A (ja) 1999-01-13 2000-07-28 Nec Corp 有機エレクトロルミネセント表示装置及びその製造方法
US6488689B1 (en) * 1999-05-20 2002-12-03 Aaron V. Kaplan Methods and apparatus for transpericardial left atrial appendage closure
WO2005110240A1 (en) * 2004-05-07 2005-11-24 Nmt Medical, Inc. Catching mechanisms for tubular septal occluder
DE102005025169B4 (de) 2005-06-01 2007-08-02 Infineon Technologies Ag Kommunikationsvorrichtung und Verfahren zur Übermittlung von Daten
US20090143640A1 (en) * 2007-11-26 2009-06-04 Voyage Medical, Inc. Combination imaging and treatment assemblies
US8666734B2 (en) 2009-09-23 2014-03-04 University Of Maryland, College Park Systems and methods for multiple pitch tracking using a multidimensional function and strength values

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4701954A (en) * 1984-03-16 1987-10-20 American Telephone And Telegraph Company, At&T Bell Laboratories Multipulse LPC speech processing arrangement
US4879748A (en) * 1985-08-28 1989-11-07 American Telephone And Telegraph Company Parallel processing pitch detector
JPH0636159B2 (ja) * 1985-12-18 1994-05-11 日本電気株式会社 ピツチ検出器
JPH0782359B2 (ja) * 1989-04-21 1995-09-06 三菱電機株式会社 音声符号化装置、音声復号化装置及び音声符号化・復号化装置
US5189701A (en) * 1991-10-25 1993-02-23 Micom Communications Corp. Voice coder/decoder and methods of coding/decoding
KR960009530B1 (en) * 1993-12-20 1996-07-20 Korea Electronics Telecomm Method for shortening processing time in pitch checking method for vocoder
US5704000A (en) * 1994-11-10 1997-12-30 Hughes Electronics Robust pitch estimation method and device for telephone speech
US5680426A (en) * 1996-01-17 1997-10-21 Analogic Corporation Streak suppression filter for use in computed tomography systems
KR100217372B1 (ko) 1996-06-24 1999-09-01 윤종용 음성처리장치의 피치 추출방법

Also Published As

Publication number Publication date
GB9702817D0 (en) 1997-04-02
KR980006959A (ko) 1998-03-30
JPH1020887A (ja) 1998-01-23
KR100217372B1 (ko) 1999-09-01
US5864791A (en) 1999-01-26
JP3159930B2 (ja) 2001-04-23
GB2314747B (en) 1998-08-26
CN1146861C (zh) 2004-04-21
GB2314747A (en) 1998-01-07

Similar Documents

Publication Publication Date Title
CN108447495B (zh) 一种基于综合特征集的深度学习语音增强方法
CN101207665B (zh) 一种衰减因子的获取方法
EP1252621B1 (en) System and method for modifying speech signals
JP2956548B2 (ja) 音声帯域拡大装置
US6182035B1 (en) Method and apparatus for detecting voice activity
CN1408109A (zh) 利用自适应噪声本底相加和噪声替换限制,增强sbr和有关hfr编码方法的感知性能
KR20020052191A (ko) 음성 분류를 이용한 음성의 가변 비트 속도 켈프 코딩 방법
CN111724809A (zh) 一种基于变分自编码器的声码器实现方法及装置
CN1146861C (zh) 语音处理装置中的音调提取方法
CN1269106C (zh) 一种用于数字助听器的中文语音信号处理方法
Eichner et al. Voice characteristics conversion for TTS using reverse VTLN
KR100527002B1 (ko) 음성 신호의 에너지 분포 특성을 고려한 쉐이핑 장치 및 방법
Laaksonen et al. Artificial bandwidth expansion method to improve intelligibility and quality of AMR-coded narrowband speech
Deisher et al. Speech enhancement using state-based estimation and sinusoidal modeling
Maged et al. Improving speaker identification system using discrete wavelet transform and AWGN
Park et al. Improving pitch detection through emphasized harmonics in time-domain
CN118298845B (zh) 复调音频的音高识别模型的训练方法、装置、介质及设备
CN117153196B (zh) Pcm语音信号处理方法、装置、设备及介质
KR970002856A (ko) 선형예측분석합성을 이용한 음성인식방법
Pannirselvam et al. Comparative Study on Preprocessing Techniques on Automatic Speech Recognition for Tamil Language
Manasa et al. Minimization of noise in speech signal using mel-filter
Gishamer et al. Audio-denoising with Neural Network Architectures
KR100322704B1 (ko) 음성신호의지속시간변경방법
CN116312582A (zh) 基于变分自编码网络双向化损失函数的语音转换方法
CN117409810A (zh) 歌声分离模型

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term

Granted publication date: 20040421

CX01 Expiry of patent term