CN1167308A - 从语言信号导出特征值的方法 - Google Patents

从语言信号导出特征值的方法 Download PDF

Info

Publication number
CN1167308A
CN1167308A CN97111218A CN97111218A CN1167308A CN 1167308 A CN1167308 A CN 1167308A CN 97111218 A CN97111218 A CN 97111218A CN 97111218 A CN97111218 A CN 97111218A CN 1167308 A CN1167308 A CN 1167308A
Authority
CN
China
Prior art keywords
frequency
segmentation
value
autocorrelation
coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN97111218A
Other languages
English (en)
Other versions
CN1120468C (zh
Inventor
L·威林
H·奈伊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Electronics NV filed Critical Philips Electronics NV
Publication of CN1167308A publication Critical patent/CN1167308A/zh
Application granted granted Critical
Publication of CN1120468C publication Critical patent/CN1120468C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

在一种经常使用的话音输出的语音合成中,将一个激励信号施加于多个谐振器,这些谐振器的频率和振幅是根据要产生的声音调节的。可以从自然语音信号获得用于调节谐振器的参数。这些从自然语音信号获得的参数也可以用于语音识别,其中将这些参数与比较值相比较。根据本发明,这些参数,特别是共振峰频率是利用经过分立频率形成功率密度谱而确定的,从功率密度谱可以得到功率密度谱的连续频度分段的自相关系数,反过来又可以从自相关系数获得误差值,同时求出全部分段的误差值的和的最小值。

Description

从语言信号导出特征值的方法
本发明一般涉及语言信号处理领域,特别是语音识别和话音输出领域。
在语音输出中,产生出各个独立的短语言分段,它们按时间顺序产生十分类似自然语言表达的语言信号。为了产生独立的语言分段,最好是使用最少数量的尽可能精确地模拟一个语言分段的参数。这些参数基于具有带有一般来说不同带宽的不同共振频率的自然语音声迹,以产生不同的声音。在语言信号中的共振频率称为共振峰频率,并且它们的示值和它们的带宽足以产生不同的声音。最好是能够从一个自然语言信号荻得这些参数。
但是,从自然语言信号获得的这些参数也可以用于语言识别。在这种情况下,一个语言信号被分割为多个短的周期,并从每个周期导出特征值并将这些特征值与对应于给定声音的参考值相比较。通过进一步地处理这些比较的结果,可以确定最可能发出的语音。例如,特征值可以是相继频率分段中的能量。但是,当把共振峰频率用作特征值时,也能得到良好的结果。利用这些频率,可以更好地顾及发出的真实语音与用于识别的参考值之间的大量偏差。
本发明的目的是提供一种方法,利用这种方法可以用一种可靠方式和相对较少的计算从语言信号确定共振峰频率或指示这些共振峰频率的特征值,因而能够基本上实现实时处理。
根据本发明,这一目的是通过最初借助于语言信号的连续周期的分立频率形成功率密度谱而完成的。对于一个预定的第一数量的功率密度谱的连续的分段,在这些周期的每一个中形成头三个自相关系数。为此目的,必须确定分段的边界频率,这些分段的边界频率对于具有相应于分段数量的多个共振峰频率的模型函数近似算法是最优的。为了确定边界频率,从自相关系数形成每个分段的误差值,再把所有分段的误差值相加,对于分段之间的不同边界频率反复地生成自相关系数和误差值,直到确定出误差值的和的最小值以及相关的最佳边界频率。最后,从具有最佳边界频率的分段的自相关系数导出每个分段的至少一个特征值。这些值可以是能够从自相关系数直接确定的预测系数,或者是共振频率和可以由预测系数再次单值性导出的带宽。
直接形成用于给定功率密度谱的频率分段的自相关系数需要一些计算。根据本发明的一个实施例,从功率密度谱形成这种自相关系数的一个较为简单的模式是要从每个周期的功率密度谱确定一组辅助值,这些辅助值代表从最低频率到一个给定较高频率的自相关系数。这些辅助值存储在一个表格中,并与有关的较高频率相关联。然后从表格中两个值之间的差确定出一个给定频率分段的一个自相关系数。后面的处理过程只需要一种简单的计算,而且在每个周期中以一个有限的计算时间只需一次就可以确定表格。
最佳边界频率——在该频率误差值的和最小——基本上是根据动态程序的原理确定的。为此目的,使用了另一个代表误差的辅助值,以便把频率分段从最低频率到一个较高频率优化地划分为给定数量的分段。接下来,将各较高频率再划分为两个频率间隔,用间隔的边界逐级地包容全部频率,并且当这个辅助值大于在分段的前面边界上获得的辅助值和间隔边界与瞬时较高频率之间的范围的误差值的和时,则将这个和数值设定为新的误差值,并同时存储相关的间隔边界。当这对直到最高频率的全部较高频率都有效时,那么通过追溯的方法可以获得绝对的,最佳分段边界。
根据本发明的数学处理过程如下。
起点是LPC(线性预测编码器)预测器多项式
    Ak(ejw)=1-αkejwke2jwαk和βk是预测器系数,可以从预测器系数确定共振频率φk如下:
为了确定共振峰频率的K数,必须把频谱划分为K个分段,在分段中以适当的方式选择各分段的边界频率,使得对应于一个给定短时间功率密度谱|S(ejw)|2的误差为最小。根据L.Rbiner,R.-W.Schafer所定的“语言信号的数字处理”(″Digital Processing of Speech Signals″,Prentice Hall,Englewood Cliffs,NJ,1978),该最小误差值引出表达式: α k opt = r k ( O ) r k ( 1 ) - r k ( 1 ) r k ( 2 ) r k ( O ) 2 - r ( 1 ) 2 β k opt = r k ( O ) r k ( 2 ) - r k ( 1 ) 2 r k ( O ) 2 - r k ( 1 ) 2 在这个表达式中,rk(n)是分段k的自相关系数,n=0,1,2。这些自相关系数可以从语言信号的功率密度谱算出。具有边界频率ωk-1和ωk的一个分段的最小误差值可以用下式表达:
  Emink-1,ωk)=rk(0)-αk optrk(1)-βk optrk(2)
为确定全部分段的最佳边界频率,全部分段误差值的和应当是一个最小值。为了计算这个最小值,必须把自相关系数用于功率密度谱的不同频率分段。为了简化这种计算,引入一个辅助值T(n,i): T ( n , i ) = Σ l = 0 l S ( l ) 2 cos 2 πnl 2 I 其中n=0,1,2并且i=0,1,…,2I是一个分立频率的序列。
因此这个辅助值构成了一组用频率i作为独立值以表格形式存储的值。利用表格中两个值之间的差可以确定单一分段的自相关系数:
    rk(n)=T(n,ik)-T(n,ik-1)
两个表格值的使用和他们的差的形成仅需要很短的时间,因而不会显著地影响最小误差和值的确定。
最小误差和值基本上是根据动态规划的原理确定的。为此目的,引入了一个指示误差的辅助值F(k,i),该值用于使频率间隔从1至i最优地划分为k个分段。由于频率间隔从1至i再划分为从1至j和j+1至i两个频率分段,并且考虑到辅助值F(k,i)代表一种误差值而且将被最小化,因而得到了动态程序的递归关系: F ( k , I ) = min j [ F ( k - 1 , j ) + E min ( j + 1 , i ) ]
这种关系表示,利用将频率间隔从1至j划分为(k-1)个分段的最佳划分,以便把频率间隔从1至i再划分为k个分段。
在附图中显示了利用动态程序确定具有最小误差和值的分段的最佳边界频率的完整过程。这个过程在从一个预订时间周期的语言信号确定了功率密度谱之后,和在为确定不同频率分段的自相关系数而计算用于上述表格的值之后开始,并且最初包括确定在附图指出的边界之内的不同j和i值的各个单独的误差值Emin(j+1,i)。利用前面指出的关系——在这种关系中αk opt和βk opt是仅由rk(n)表达的——可以确定最小误差值,并产生一个存储的值的矩阵。在接下来的通过频率i,分段k和再划分频率j的循环中,当辅助值F(k,i)大于直到间隔边界j的先行分段的辅助值与间隔的剩余部分的误差的和时,总的受到替换,同时每次存储一个后向标志B(k,i)。当运行通过直到最高频率I的全部循环时,通过追溯这些后向标志读出每个分段的最佳边界频率,并且从这些最佳边界频率的自相关系数同预测系数αk和βk,通过它们可以计算出各个分段的共振峰频率。
显然必须对每个相继的时间周期重复地进行这个过程,以便从语言信号中获得共振峰频率的时间序列。

Claims (3)

1、一种从语言信号导出特征值的方法,包括步骤:
通过语言信号的时间周期的分立频率形成功率密度谱,
对功率密度谱的一个预定第一数K的连续分段形成头三个自相关系数,
从自相关系数形成每个分段的误差值并求出全部分段的误差值的和,
反复地形成分段之间的不同边界的自相关系数和误差值并确定误差值的和值具有最小值的最佳边界频率,
从该最佳边界频率的分段的自相关系数导出每个分段的至少一个特征值。
2、如权利要求1所述的方法,其中对于每个时间周期确定部分功率密度谱的——从最低频率开始直到后继的较高频率的——辅助值的数量,并作为表格存储,和其中自相关系数是在动态程序过程中从表格中的值之间的差值确定的。
3、如权利要求1或2所述的方法,其中误差值的和值的最小值是根据动态程序方法确定的,其中对相继的分立频率利用一个指示最小误差的动态辅助值连续地确定最佳划分,以便将一个从一个最低频率至一个实际后继频率的分段划分为两个分段,和从最低频率与该实际频率之间的不同边界频率确定出这个边界频率的辅助值与边界频率和实际频率之间的分段的误差值的和的最小值,并且把这个和作为一个新的辅助值使用。
CN97111218A 1996-04-23 1997-04-23 从语音信号导出特征值的方法 Expired - Fee Related CN1120468C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
DE19616103.7 1996-04-23
DE19616103A DE19616103A1 (de) 1996-04-23 1996-04-23 Verfahren zum Ableiten charakteristischer Werte aus einem Sprachsignal

Publications (2)

Publication Number Publication Date
CN1167308A true CN1167308A (zh) 1997-12-10
CN1120468C CN1120468C (zh) 2003-09-03

Family

ID=7792148

Family Applications (1)

Application Number Title Priority Date Filing Date
CN97111218A Expired - Fee Related CN1120468C (zh) 1996-04-23 1997-04-23 从语音信号导出特征值的方法

Country Status (6)

Country Link
US (1) US6041296A (zh)
EP (1) EP0803861B1 (zh)
JP (1) JPH1069296A (zh)
KR (1) KR100422266B1 (zh)
CN (1) CN1120468C (zh)
DE (2) DE19616103A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113223540A (zh) * 2014-04-17 2021-08-06 声代Evs有限公司 在声音信号编码器和解码器中使用的方法、设备和存储器
CN114509157A (zh) * 2020-11-17 2022-05-17 丰田自动车株式会社 信息处理系统、信息处理方法以及程序

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1363271A1 (de) * 2002-05-08 2003-11-19 Sap Ag Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
DE10220521B4 (de) * 2002-05-08 2005-11-24 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen
DE10220522B4 (de) * 2002-05-08 2005-11-17 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse
DE10220524B4 (de) * 2002-05-08 2006-08-10 Sap Ag Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache
US7444187B2 (en) * 2003-02-14 2008-10-28 Koninklijke Philips Electronics N.V. Method for controlling lighting parameters, controlling device, lighting system
JP6760200B2 (ja) * 2017-05-16 2020-09-23 富士通株式会社 推定プログラム、推定方法および推定装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6051720B2 (ja) * 1975-08-22 1985-11-15 日本電信電話株式会社 音声の基本周期抽出装置
US4509150A (en) * 1980-12-31 1985-04-02 Mobil Oil Corporation Linear prediction coding for compressing of seismic data
JPH03136100A (ja) * 1989-10-20 1991-06-10 Canon Inc 音声処理方法及び装置
DE19500494C2 (de) * 1995-01-10 1997-01-23 Siemens Ag Merkmalsextraktionsverfahren für ein Sprachsignal

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113223540A (zh) * 2014-04-17 2021-08-06 声代Evs有限公司 在声音信号编码器和解码器中使用的方法、设备和存储器
CN113223540B (zh) * 2014-04-17 2024-01-09 声代Evs有限公司 在声音信号编码器和解码器中使用的方法、设备和存储器
CN114509157A (zh) * 2020-11-17 2022-05-17 丰田自动车株式会社 信息处理系统、信息处理方法以及程序
CN114509157B (zh) * 2020-11-17 2024-04-05 丰田自动车株式会社 信息处理系统、信息处理方法以及程序

Also Published As

Publication number Publication date
KR100422266B1 (ko) 2004-08-04
EP0803861B1 (de) 2003-03-05
EP0803861A3 (de) 1998-10-07
EP0803861A2 (de) 1997-10-29
CN1120468C (zh) 2003-09-03
DE19616103A1 (de) 1997-10-30
DE59709419D1 (de) 2003-04-10
JPH1069296A (ja) 1998-03-10
US6041296A (en) 2000-03-21
KR970071463A (ko) 1997-11-07

Similar Documents

Publication Publication Date Title
Childers et al. Gender recognition from speech. Part II: Fine analysis
US7035791B2 (en) Feature-domain concatenative speech synthesis
Dubnowski et al. Real-time digital hardware pitch detector
CA2189666C (en) Waveform speech synthesis
US5832437A (en) Continuous and discontinuous sine wave synthesis of speech signals from harmonic data of different pitch periods
EP1309964B1 (en) Fast frequency-domain pitch estimation
US4805219A (en) Method for speech recognition
US4805218A (en) Method for speech analysis and speech recognition
US4038503A (en) Speech recognition apparatus
DE60126149T2 (de) Verfahren, einrichtung und programm zum codieren und decodieren eines akustischen parameters und verfahren, einrichtung und programm zum codieren und decodieren von klängen
CN1190236A (zh) 语音合成系统及其减少冗余的波形数据库
CN101276583A (zh) 语音合成系统和语音合成方法
CN1120468C (zh) 从语音信号导出特征值的方法
US4346262A (en) Speech analysis system
CA2213779C (en) Speech synthesis
JPS59121100A (ja) 連続音声認識装置
Emiya et al. Automatic transcription of piano music based on HMM tracking of jointly-estimated pitches
WO2002097794A1 (en) Speech synthesis
US8849662B2 (en) Method and system for segmenting phonemes from voice signals
US6289305B1 (en) Method for analyzing speech involving detecting the formants by division into time frames using linear prediction
DeMori Syntactic recognition of speech patterns
US4075424A (en) Speech synthesizing apparatus
AU617993B2 (en) Multi-pulse type coding system
Bloom Use of dynamic programming for automatic synchronization of two similar speech signals
Markel et al. Automatic formant trajectory estimation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C53 Correction of patent of invention or patent application
CB02 Change of applicant information

Applicant after: Koninklike Philips Electronics N. V.

Applicant before: Philips Electronics N. V.

COR Change of bibliographic data

Free format text: CORRECT: APPLICANT; FROM: N.V. PHILIPS OPTICAL LAMP LTD., CO. TO: ROYAL PHILIPS ELECTRONICS CO., LTD.

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1051111

Country of ref document: HK

C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee