CN1167308A - 从语言信号导出特征值的方法 - Google Patents
从语言信号导出特征值的方法 Download PDFInfo
- Publication number
- CN1167308A CN1167308A CN97111218A CN97111218A CN1167308A CN 1167308 A CN1167308 A CN 1167308A CN 97111218 A CN97111218 A CN 97111218A CN 97111218 A CN97111218 A CN 97111218A CN 1167308 A CN1167308 A CN 1167308A
- Authority
- CN
- China
- Prior art keywords
- frequency
- segmentation
- value
- autocorrelation
- coefficient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 238000009795 derivation Methods 0.000 title claims description 3
- 238000001228 spectrum Methods 0.000 claims abstract description 15
- 230000011218 segmentation Effects 0.000 claims description 43
- 230000015572 biosynthetic process Effects 0.000 abstract description 2
- 239000012634 fragment Substances 0.000 description 2
- 235000014676 Phragmites communis Nutrition 0.000 description 1
- 230000000454 anti-cipatory effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Electrophonic Musical Instruments (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
在一种经常使用的话音输出的语音合成中,将一个激励信号施加于多个谐振器,这些谐振器的频率和振幅是根据要产生的声音调节的。可以从自然语音信号获得用于调节谐振器的参数。这些从自然语音信号获得的参数也可以用于语音识别,其中将这些参数与比较值相比较。根据本发明,这些参数,特别是共振峰频率是利用经过分立频率形成功率密度谱而确定的,从功率密度谱可以得到功率密度谱的连续频度分段的自相关系数,反过来又可以从自相关系数获得误差值,同时求出全部分段的误差值的和的最小值。
Description
本发明一般涉及语言信号处理领域,特别是语音识别和话音输出领域。
在语音输出中,产生出各个独立的短语言分段,它们按时间顺序产生十分类似自然语言表达的语言信号。为了产生独立的语言分段,最好是使用最少数量的尽可能精确地模拟一个语言分段的参数。这些参数基于具有带有一般来说不同带宽的不同共振频率的自然语音声迹,以产生不同的声音。在语言信号中的共振频率称为共振峰频率,并且它们的示值和它们的带宽足以产生不同的声音。最好是能够从一个自然语言信号荻得这些参数。
但是,从自然语言信号获得的这些参数也可以用于语言识别。在这种情况下,一个语言信号被分割为多个短的周期,并从每个周期导出特征值并将这些特征值与对应于给定声音的参考值相比较。通过进一步地处理这些比较的结果,可以确定最可能发出的语音。例如,特征值可以是相继频率分段中的能量。但是,当把共振峰频率用作特征值时,也能得到良好的结果。利用这些频率,可以更好地顾及发出的真实语音与用于识别的参考值之间的大量偏差。
本发明的目的是提供一种方法,利用这种方法可以用一种可靠方式和相对较少的计算从语言信号确定共振峰频率或指示这些共振峰频率的特征值,因而能够基本上实现实时处理。
根据本发明,这一目的是通过最初借助于语言信号的连续周期的分立频率形成功率密度谱而完成的。对于一个预定的第一数量的功率密度谱的连续的分段,在这些周期的每一个中形成头三个自相关系数。为此目的,必须确定分段的边界频率,这些分段的边界频率对于具有相应于分段数量的多个共振峰频率的模型函数近似算法是最优的。为了确定边界频率,从自相关系数形成每个分段的误差值,再把所有分段的误差值相加,对于分段之间的不同边界频率反复地生成自相关系数和误差值,直到确定出误差值的和的最小值以及相关的最佳边界频率。最后,从具有最佳边界频率的分段的自相关系数导出每个分段的至少一个特征值。这些值可以是能够从自相关系数直接确定的预测系数,或者是共振频率和可以由预测系数再次单值性导出的带宽。
直接形成用于给定功率密度谱的频率分段的自相关系数需要一些计算。根据本发明的一个实施例,从功率密度谱形成这种自相关系数的一个较为简单的模式是要从每个周期的功率密度谱确定一组辅助值,这些辅助值代表从最低频率到一个给定较高频率的自相关系数。这些辅助值存储在一个表格中,并与有关的较高频率相关联。然后从表格中两个值之间的差确定出一个给定频率分段的一个自相关系数。后面的处理过程只需要一种简单的计算,而且在每个周期中以一个有限的计算时间只需一次就可以确定表格。
最佳边界频率——在该频率误差值的和最小——基本上是根据动态程序的原理确定的。为此目的,使用了另一个代表误差的辅助值,以便把频率分段从最低频率到一个较高频率优化地划分为给定数量的分段。接下来,将各较高频率再划分为两个频率间隔,用间隔的边界逐级地包容全部频率,并且当这个辅助值大于在分段的前面边界上获得的辅助值和间隔边界与瞬时较高频率之间的范围的误差值的和时,则将这个和数值设定为新的误差值,并同时存储相关的间隔边界。当这对直到最高频率的全部较高频率都有效时,那么通过追溯的方法可以获得绝对的,最佳分段边界。
根据本发明的数学处理过程如下。
起点是LPC(线性预测编码器)预测器多项式
Ak(ejw)=1-αkejw-βke2jwαk和βk是预测器系数,可以从预测器系数确定共振频率φk如下:
为了确定共振峰频率的K数,必须把频谱划分为K个分段,在分段中以适当的方式选择各分段的边界频率,使得对应于一个给定短时间功率密度谱|S(ejw)|2的误差为最小。根据L.Rbiner,R.-W.Schafer所定的“语言信号的数字处理”(″Digital Processing of Speech Signals″,Prentice Hall,Englewood Cliffs,NJ,1978),该最小误差值引出表达式: 在这个表达式中,rk(n)是分段k的自相关系数,n=0,1,2。这些自相关系数可以从语言信号的功率密度谱算出。具有边界频率ωk-1和ωk的一个分段的最小误差值可以用下式表达:
Emin(ωk-1,ωk)=rk(0)-αk optrk(1)-βk optrk(2)
为确定全部分段的最佳边界频率,全部分段误差值的和应当是一个最小值。为了计算这个最小值,必须把自相关系数用于功率密度谱的不同频率分段。为了简化这种计算,引入一个辅助值T(n,i): 其中n=0,1,2并且i=0,1,…,2I是一个分立频率的序列。
因此这个辅助值构成了一组用频率i作为独立值以表格形式存储的值。利用表格中两个值之间的差可以确定单一分段的自相关系数:
rk(n)=T(n,ik)-T(n,ik-1)
两个表格值的使用和他们的差的形成仅需要很短的时间,因而不会显著地影响最小误差和值的确定。
最小误差和值基本上是根据动态规划的原理确定的。为此目的,引入了一个指示误差的辅助值F(k,i),该值用于使频率间隔从1至i最优地划分为k个分段。由于频率间隔从1至i再划分为从1至j和j+1至i两个频率分段,并且考虑到辅助值F(k,i)代表一种误差值而且将被最小化,因而得到了动态程序的递归关系:
这种关系表示,利用将频率间隔从1至j划分为(k-1)个分段的最佳划分,以便把频率间隔从1至i再划分为k个分段。
在附图中显示了利用动态程序确定具有最小误差和值的分段的最佳边界频率的完整过程。这个过程在从一个预订时间周期的语言信号确定了功率密度谱之后,和在为确定不同频率分段的自相关系数而计算用于上述表格的值之后开始,并且最初包括确定在附图指出的边界之内的不同j和i值的各个单独的误差值Emin(j+1,i)。利用前面指出的关系——在这种关系中αk opt和βk opt是仅由rk(n)表达的——可以确定最小误差值,并产生一个存储的值的矩阵。在接下来的通过频率i,分段k和再划分频率j的循环中,当辅助值F(k,i)大于直到间隔边界j的先行分段的辅助值与间隔的剩余部分的误差的和时,总的受到替换,同时每次存储一个后向标志B(k,i)。当运行通过直到最高频率I的全部循环时,通过追溯这些后向标志读出每个分段的最佳边界频率,并且从这些最佳边界频率的自相关系数同预测系数αk和βk,通过它们可以计算出各个分段的共振峰频率。
显然必须对每个相继的时间周期重复地进行这个过程,以便从语言信号中获得共振峰频率的时间序列。
Claims (3)
1、一种从语言信号导出特征值的方法,包括步骤:
通过语言信号的时间周期的分立频率形成功率密度谱,
对功率密度谱的一个预定第一数K的连续分段形成头三个自相关系数,
从自相关系数形成每个分段的误差值并求出全部分段的误差值的和,
反复地形成分段之间的不同边界的自相关系数和误差值并确定误差值的和值具有最小值的最佳边界频率,
从该最佳边界频率的分段的自相关系数导出每个分段的至少一个特征值。
2、如权利要求1所述的方法,其中对于每个时间周期确定部分功率密度谱的——从最低频率开始直到后继的较高频率的——辅助值的数量,并作为表格存储,和其中自相关系数是在动态程序过程中从表格中的值之间的差值确定的。
3、如权利要求1或2所述的方法,其中误差值的和值的最小值是根据动态程序方法确定的,其中对相继的分立频率利用一个指示最小误差的动态辅助值连续地确定最佳划分,以便将一个从一个最低频率至一个实际后继频率的分段划分为两个分段,和从最低频率与该实际频率之间的不同边界频率确定出这个边界频率的辅助值与边界频率和实际频率之间的分段的误差值的和的最小值,并且把这个和作为一个新的辅助值使用。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19616103.7 | 1996-04-23 | ||
DE19616103A DE19616103A1 (de) | 1996-04-23 | 1996-04-23 | Verfahren zum Ableiten charakteristischer Werte aus einem Sprachsignal |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1167308A true CN1167308A (zh) | 1997-12-10 |
CN1120468C CN1120468C (zh) | 2003-09-03 |
Family
ID=7792148
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN97111218A Expired - Fee Related CN1120468C (zh) | 1996-04-23 | 1997-04-23 | 从语音信号导出特征值的方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US6041296A (zh) |
EP (1) | EP0803861B1 (zh) |
JP (1) | JPH1069296A (zh) |
KR (1) | KR100422266B1 (zh) |
CN (1) | CN1120468C (zh) |
DE (2) | DE19616103A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113223540A (zh) * | 2014-04-17 | 2021-08-06 | 声代Evs有限公司 | 在声音信号编码器和解码器中使用的方法、设备和存储器 |
CN114509157A (zh) * | 2020-11-17 | 2022-05-17 | 丰田自动车株式会社 | 信息处理系统、信息处理方法以及程序 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1363271A1 (de) * | 2002-05-08 | 2003-11-19 | Sap Ag | Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs |
DE10220521B4 (de) * | 2002-05-08 | 2005-11-24 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen |
DE10220522B4 (de) * | 2002-05-08 | 2005-11-17 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse |
DE10220524B4 (de) * | 2002-05-08 | 2006-08-10 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache |
US7444187B2 (en) * | 2003-02-14 | 2008-10-28 | Koninklijke Philips Electronics N.V. | Method for controlling lighting parameters, controlling device, lighting system |
JP6760200B2 (ja) * | 2017-05-16 | 2020-09-23 | 富士通株式会社 | 推定プログラム、推定方法および推定装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6051720B2 (ja) * | 1975-08-22 | 1985-11-15 | 日本電信電話株式会社 | 音声の基本周期抽出装置 |
US4509150A (en) * | 1980-12-31 | 1985-04-02 | Mobil Oil Corporation | Linear prediction coding for compressing of seismic data |
JPH03136100A (ja) * | 1989-10-20 | 1991-06-10 | Canon Inc | 音声処理方法及び装置 |
DE19500494C2 (de) * | 1995-01-10 | 1997-01-23 | Siemens Ag | Merkmalsextraktionsverfahren für ein Sprachsignal |
-
1996
- 1996-04-23 DE DE19616103A patent/DE19616103A1/de not_active Withdrawn
-
1997
- 1997-04-14 EP EP97201104A patent/EP0803861B1/de not_active Expired - Lifetime
- 1997-04-14 DE DE59709419T patent/DE59709419D1/de not_active Expired - Fee Related
- 1997-04-21 US US08/843,808 patent/US6041296A/en not_active Expired - Fee Related
- 1997-04-22 JP JP9104632A patent/JPH1069296A/ja not_active Abandoned
- 1997-04-23 KR KR1019970015176A patent/KR100422266B1/ko not_active IP Right Cessation
- 1997-04-23 CN CN97111218A patent/CN1120468C/zh not_active Expired - Fee Related
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113223540A (zh) * | 2014-04-17 | 2021-08-06 | 声代Evs有限公司 | 在声音信号编码器和解码器中使用的方法、设备和存储器 |
CN113223540B (zh) * | 2014-04-17 | 2024-01-09 | 声代Evs有限公司 | 在声音信号编码器和解码器中使用的方法、设备和存储器 |
CN114509157A (zh) * | 2020-11-17 | 2022-05-17 | 丰田自动车株式会社 | 信息处理系统、信息处理方法以及程序 |
CN114509157B (zh) * | 2020-11-17 | 2024-04-05 | 丰田自动车株式会社 | 信息处理系统、信息处理方法以及程序 |
Also Published As
Publication number | Publication date |
---|---|
KR100422266B1 (ko) | 2004-08-04 |
EP0803861B1 (de) | 2003-03-05 |
EP0803861A3 (de) | 1998-10-07 |
EP0803861A2 (de) | 1997-10-29 |
CN1120468C (zh) | 2003-09-03 |
DE19616103A1 (de) | 1997-10-30 |
DE59709419D1 (de) | 2003-04-10 |
JPH1069296A (ja) | 1998-03-10 |
US6041296A (en) | 2000-03-21 |
KR970071463A (ko) | 1997-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Childers et al. | Gender recognition from speech. Part II: Fine analysis | |
US7035791B2 (en) | Feature-domain concatenative speech synthesis | |
Dubnowski et al. | Real-time digital hardware pitch detector | |
CA2189666C (en) | Waveform speech synthesis | |
US5832437A (en) | Continuous and discontinuous sine wave synthesis of speech signals from harmonic data of different pitch periods | |
EP1309964B1 (en) | Fast frequency-domain pitch estimation | |
US4805219A (en) | Method for speech recognition | |
US4805218A (en) | Method for speech analysis and speech recognition | |
US4038503A (en) | Speech recognition apparatus | |
DE60126149T2 (de) | Verfahren, einrichtung und programm zum codieren und decodieren eines akustischen parameters und verfahren, einrichtung und programm zum codieren und decodieren von klängen | |
CN1190236A (zh) | 语音合成系统及其减少冗余的波形数据库 | |
CN101276583A (zh) | 语音合成系统和语音合成方法 | |
CN1120468C (zh) | 从语音信号导出特征值的方法 | |
US4346262A (en) | Speech analysis system | |
CA2213779C (en) | Speech synthesis | |
JPS59121100A (ja) | 連続音声認識装置 | |
Emiya et al. | Automatic transcription of piano music based on HMM tracking of jointly-estimated pitches | |
WO2002097794A1 (en) | Speech synthesis | |
US8849662B2 (en) | Method and system for segmenting phonemes from voice signals | |
US6289305B1 (en) | Method for analyzing speech involving detecting the formants by division into time frames using linear prediction | |
DeMori | Syntactic recognition of speech patterns | |
US4075424A (en) | Speech synthesizing apparatus | |
AU617993B2 (en) | Multi-pulse type coding system | |
Bloom | Use of dynamic programming for automatic synchronization of two similar speech signals | |
Markel et al. | Automatic formant trajectory estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C53 | Correction of patent of invention or patent application | ||
CB02 | Change of applicant information |
Applicant after: Koninklike Philips Electronics N. V. Applicant before: Philips Electronics N. V. |
|
COR | Change of bibliographic data |
Free format text: CORRECT: APPLICANT; FROM: N.V. PHILIPS OPTICAL LAMP LTD., CO. TO: ROYAL PHILIPS ELECTRONICS CO., LTD. |
|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: GR Ref document number: 1051111 Country of ref document: HK |
|
C19 | Lapse of patent right due to non-payment of the annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |