CN1218945A - 静态和非静态信号的鉴别 - Google Patents
静态和非静态信号的鉴别 Download PDFInfo
- Publication number
- CN1218945A CN1218945A CN97101022A CN97101022A CN1218945A CN 1218945 A CN1218945 A CN 1218945A CN 97101022 A CN97101022 A CN 97101022A CN 97101022 A CN97101022 A CN 97101022A CN 1218945 A CN1218945 A CN 1218945A
- Authority
- CN
- China
- Prior art keywords
- signal
- static
- frame
- energy
- background sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003068 static effect Effects 0.000 title claims description 59
- 238000000034 method Methods 0.000 claims description 43
- 238000005303 weighing Methods 0.000 claims description 2
- 238000012360 testing method Methods 0.000 abstract description 25
- 238000004891 communication Methods 0.000 abstract description 2
- 230000005284 excitation Effects 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 8
- 238000001914 filtration Methods 0.000 description 6
- 230000001105 regulatory effect Effects 0.000 description 5
- 241001673391 Entandrophragma candollei Species 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000033001 locomotion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 101100522114 Oryza sativa subsp. japonica PHT1-12 gene Proteins 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 241001237745 Salamis Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000012467 final product Substances 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- KJONHKAYOJNZEC-UHFFFAOYSA-N nitrazepam Chemical compound C12=CC([N+](=O)[O-])=CC=C2NC(=O)CN=C1C1=CC=CC=C1 KJONHKAYOJNZEC-UHFFFAOYSA-N 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 235000015175 salami Nutrition 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Mobile Radio Communication Systems (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Monitoring And Testing Of Transmission In General (AREA)
- Circuits Of Receivers In General (AREA)
- Complex Calculations (AREA)
- Inspection Of Paper Currency And Valuable Securities (AREA)
- Transmission And Conversion Of Sensor Element Output (AREA)
- Radar Systems Or Details Thereof (AREA)
Abstract
鉴别器(24)鉴别静态和非静态信号。输入信号的能量E(Ti)在一系列窗Ti中计算出来。这些能量值存入缓冲器(52)中,根据这些存储值计算测试变量VT(54)。此测试变量包括缓冲器中最大能量值与最小能量值的比值。最后将该测试变量与静止状况极限γ加以比较。若测试变量超过该极限,就将输入信号视为非静态的。这种鉴别方法对鉴别移动无线电通信系统中的静态和非静态背景音特别有用。
Description
本发明涉及一种鉴别静态和非静态信号的方法。这种方法例如可用以检测移动无线电通信系统中表示背景音的信号是否为静态。本发明还涉及应用此方法对静止背景音进行检测和编码/译码的一种方法和一种设备。
许多现代的语音编码器分属于一大类叫做LPC(线性预测编码器)的语音编码器。属于这一类编码器的例子有:美国国防部的4.8千位/秒的CELP,欧洲数字蜂房式移动电话系统GSM的RPE-LTP编码器,相应于美国系统ADC的VSELP编码器,以及太平洋数字蜂房或系统PDC的VSELP编码器。
所有这些编码器在信号产生过程中都应用了信号源-滤波器原理。滤波器用来模拟待重视的信号的短时信号频谱,信号源则用来处理所有其它信号变种。
这些信号源一滤波器模型的共同点是,待重视的信号用确定信号源输出信号的参数和确定滤波器的滤波器参器表示。“线性预测”一词是指通常用以预计滤波器参数的方法。因此待重视的信号一部分是用一套滤波器参数表示的。
采用信号源-滤波器组合作为信号模型的这种方法对语音信号相当有效,使用移动电话的人不作声且输入信号中含有环境声时,现行周知的编码器由于只有在话音信号下才处于最佳工作状态因而很难适应这种情况。在通信链路另一端的收听者当对其熟悉的背景音因其受“编码器误处理”而辨认不出时可能容易感到困扰。
按照瑞典专利申请93 00290-5(这里也把该专利申请包括进来以供参考),上述问题是这样解决的:检测编码器听收到的信号中有否背景音,当背景音在信号中占优势时,根据某一叫做反回荡的算法(anti-swirlingalgorithm)去修改滤波器参数的计算方法。
但我们知道,背景音不同,其静态特性就不一定相同。其中一种背景音,例如汽车噪音,其特点可以说是静态的。另一种背景音,例如背景混串音,其特点可以说是非静态的。实验表明,上述反回荡算法对静态背景音确实有效,但对非静态背景音则不然,因此有必要将静态和非静态的背景音加以区别,以便在背景音是非静态时避免使用反回荡算法。
因此,本发明的目的是要提供一种鉴别静态和非静态信号(例如表示移动无线电通信系统中的背景音信号)的方法。
按照本发明,这种方法的特征在于:
(a)估出信号在预定长度的时间窗T的各N时间子窗Ti(其中N>2)中的统计瞬时值之一;
(b)估出步骤(a)中得出的估算值的变量作为衡量所述信号静态状况的尺度;
(c)确定步骤(b)中得出的变量估算值是否超过预定的静态状况极限值γ。
本发明的另一个目的是提供一种在以数字帧为基础的语音编码器和/或译码器中对静态背景音进行检测和编码和/译码的方法,该编码器和/或译码器有一个信号源与一个滤波器相连接,所述滤波器由各帧的一套滤波器参数确定,供重视待编码和/或译码的信号之用。
按照本发明,这种方法包括下列步骤:
(a)检测传送到所述编码器/译码器的信号主要是表示语音还是表示背景音;
(b)当所述传送到所述编码器/译码器的信号主要是表示背景时,检测所述背景音是否是静态的;
(c)当所述信号为静态时,限定各连续帧之间的时间变量(temporalvariation)和/或所述一套滤波器参数的至少一些参数的范围。
本发明的另一目的是提供一种在以数字帧为基础的语音编码器和/或译码器中对静态背景音进行编码和/或译码的设备,该编码器和/或译码器有一个信号源与一个滤波器相连接,所述滤波器由各帧的一套滤波器参数确定,供重视待编码和/或译码的信号之用。
按照本发明,这种设备包括:
(a)信号检测装置,用以检测传送到所述编码器/译码器的信号主要是表示语音还是表示背景音;
(b)背景音检测装置,用以当所述传送到所述编码器/译码器的信号主要是表示背景音时检测所述背景音是否是静态的;和
(c)限定装置,用以当所述传送到编码器/译码器的信号表示静态背景音时限定各连续帧之间的时间变量和/或所述一套滤波器参数的至少一些参数的范围。
结合附图参看下面的说明可以最清楚地了解到本发明连同其其它目的和优点,附图中:
图1是配备有实施本发明方法的装置的一个语音编码器的方框图;
图2是配备有实施本发明方法的装置的一个语音译码器的方框图;
图3是可用于图1的语音编码器中的一个信号鉴别器的方框图;
图4是可用于图1的语音编码器中值得推荐的信号鉴别器的方框图。
虽然本发明通常可用以鉴别静态和非静态信号,但这里将只就如何检测表示移动无线电通信系统中背景音的信号的静态进行说明。
参看图1的语音编码器。在输入线路10上,输入信号S(n)传送到滤波估计器12上,由该估计器按标准化程序对滤波器参数进行估计。所述标准化程序包括:Levinson-Durbin算法,Burg算法,Cholesky分解法(Rabiner,Schafer著的“语音信号的数字处理”一书第8章,Prentice-Hall出版社,1978年版),Schur算法(Strobach写的“新型的Levinson和Schur算法”,1991年元月份的IEEE SP杂志,第12-36页),Le Roux-Gueguen算法(Le Roux,Gueguen写的“部分相关系数的定点计算”,1977年“IEEE声学、语音和信号处理论文集”,ASSP-26卷第3期,第257-259页),转让给Motorola公司的美国专利4544919中所述的所谓FLAT算法。滤波估计器12输出各帧的滤波器参数。这些滤波器参数传送到激励分析器14,线路10上的输入信号也由激励分析器14接收。激励分析器14根据标准程序确定最佳信号源或激励参数。这些程序的例子有VSELP(Gerson,Jasiuk写的、在Atal等人汇编的“语音编码的新发展”一书,Kluner学术出版社1991年版第69-79页上发表的“矢量和激励线性预测(VSELP)”),TBPE(Salami在上一个参考文献第145-156页上发表的题为“二进制脉冲激励:逼近低复合度CELP编码的新方法”的文章),随机编码手册(Campbell等人在上一个参考文献第121-134页上发表的题为“D0D4.8 KBPS标准(联邦标准1016提案)”一文章),ACELP(Adoul Lamblin写的“CELP语音编码某些代数结构的比较一文章,1987年国际声学、语音和信号处理会议记录,第1953-1956页)。线路10上的这些激励参数、滤波器参数和输入信号都传送到语音检测器16上。该检测器16确定上述输入信号主要是含语音还是含背景音。可作为检测器的有例如GSM系统中规定的话音激活度检测器(话音激活度检测过程,GSM建议书06.32,ETSI/PT12)。欧洲专利EP,A,335521(英国电信产品目录通报)中介绍了适用的检测器。语音检测器16产生表示编码器输入信号主要是否含有语音的输出信号S/B。此输出信号连同滤波器参数一起通过信号鉴别器24传送到参数调节器18。
按照上述瑞典专利申请,参数调节器18在输入到编码器的信号中没有语音信号时调节经确定的滤波器参数。若出现语音信号,则滤波器参数毫无变化地通过参数调节器18。可能变化的滤波器参数和激励参数都传送到信道编码器20,由该编码器产生在线路22的信道上发送的位流。
参数调节器18可按若干不同的方法调节参数。
其中一个可能的调节方法是扩大滤波器的带宽。这就是说将滤波器的各极移向复合平面的原点。假设原滤波器的H(Z)=1/A(Z)是由下式给出:
当各极随因数r(0≤r≤1)移动时,扩大了的带宽可用A(z/r)表示,即:
另一种可能的调节方法是低通滤除瞬时范畴中的滤波器参数。就是说,用低通滤波除至少某些滤波器参数的方法使滤波器参数的逐帧快速变化衰减。这种方法的特殊情况是求出若干帧(例如4-5帧)上滤波器参数的平均值。
参数调节器18还可将这两种方法结合起来使用,例如扩大带宽之后进行低通滤波。此外也可以先进行低通滤波再扩大带宽。
在以上的说明中,忽略了信号鉴别器24。但我们知道,只将信号分成表示语音和背景音的信号是不够的,因为如前面说过的那样,各背景音的静态特性可能不同。因此,表示背景音的信号在信号鉴别器24中被分成静态和非静态信号,这稍后将参照图3和图4予以说明。这样,信号鉴别器24在线路26上的输出信号就表示出待编码的帧是含静态背景音还是含语音/非静态背景音,在前者情况下,参数调节器18进行上述参数调节,在后者情况下,不进行任何调节。
在上述说明中,假设参数调节是在发信机的编码器中进行的。但不言而喻,类似的参数调节过程也可以在收信机的译码器中进行。图2中示出了这方面的实施例。
图2中,在输入线路30上接收来自信道的位流。此位流由信道译码器32进行译码。信道译码器32输出滤波器参数和激励参数。在此情况下,假设这些参数未经在发信机的编码器中调节过。滤波器参数和激励参数都传送到语音检测器34,由语音检测器34对这些参数进行分析,以确定将由这些参数再现的信号是否含有语音信号。语音检测器34的输出信号S/B通过信号鉴别器24′传送到参数调节器36,参数调节器36还接收滤波器参数。
按照上述瑞典专利申请,若语音检测器34已确定所收到的信号中没有语音信号,参数调节器36就进行与图2的参数调节器18进行的类似的调节。若出现语音信号,则不进行调节。可能加以调节的滤波器参数和激励参数传送到语音译码器38,该译码器在线路40上产生一合成输出信号,语音译码器38应用激励参数产生上述源信号和可能调节的滤波器参数,以限定信号源-滤波器模型中的滤波器。
和图1的编码器中一样,信号鉴别器24′鉴别静态和非静态背景音,于是只有含静态背景音的帧才会激励参数调节器36。但在此情况下,信号鉴别器24′并没有机会使用语音信号S(n)本身,而只能使用确定该信号的激励参数。现在参照图3和图4进一步说明鉴别过程。
图3示出了图1信号鉴别器24的方框图。鉴别器24接收输入信号S(n)和来自语音检测器16的输出信号S/B。信号S/B传送到开关SW上。若语音检测器16确定信号S(n)主要含有语音,则开关SW假定取上方位置,在此情况下,信号S/B就直接传送到鉴别器24的输出端。
若信号S(n)主要含背景音,则开关SW就处在其下方位置,于是信号S/B和S(n)都传送到计算装置50,由计算装置50估算出各帧的能量E(Ti)。这里Ti可表示帧i的时间间隔。但在最佳实施例中,Ti含有两个连续帧的试样,EL(Ti)则表示这些帧的总能量。在此最佳实施例中,下一个时间窗Ti+1位移了一个语音帧,因而它含有一个新帧和一个来自上一时间窗Ti的帧,因此该两窗复用了一个帧。能量可以例如按下式估算: 其中S(n)=S(tn)。能量估算值E(Ti)存入缓冲器52中。该缓冲器例如可储存来自100-200个帧的100-200个能量估算值。一个新的估算值输入缓冲器52中时,最旧的估算值就从缓冲器中删除掉。因此缓冲器52始终储存着最近的N个能量估算值,其中N为缓冲器的容量。
接着,缓冲器52的能量估算值都传送到计算装置54,计算装置54根据下式计算出测试变量VT: 其中T是所有(可能复用的)时间窗Ti的累积时间间隔。T的长度通常是固定的,例如100-200语音帧或2-4秒。用话表达出来即为,V为时间T内的最大能量估算值除以在同一时间内的最小能量估算值。这个测试变量V是能量在最近N个帧内的变化估算值。这个估算值稍后会用来确定信号的静态状况。若信号是静态的,则其逐帧的能量变化非常小,这就是说,测试变量V将接近1。信号是非静态时,能量逐帧的变化幅度非常大,这就是说,估算值将远大于1。
测试变量V传送到比较器56,在比较器56中与静态极限γ相比较。若V超过γ,则在输出线路26上有非静态信号表示出来。这表明不应调节滤波器参数。已发现,γ值以2-5特别是3-4为宜。
从上面的说明可知,要检测一个帧中是否含有语音,只要考虑该具体帧,在语音检测器16中进行检测即可。但是,若确定该帧不含语音,则须要从帧周围的各帧累积出能量估算值,以便对静态状况进行鉴别。因此须要有一个具有N个存储单元的缓冲器,其中N>2,且通常在100-200左右。此缓冲器还可储存各能量估算值的帧号。
当已测试出测试变量V并在比较器56作出比较决定时,则在计算装置50中产生下一个能量估算值,并将其转移到缓冲器52中,这之后计算新的测试变量V,并在比较器56中与γ比较。这样,时间窗T就及时前移一个帧。
在上面的说明中,假设当语音检测器16已检测出含背景音的一个帧时,为了在缓冲器52中累积足量的能量估算值以形成测试变量Y,它会继续检测以后各帧的背景音。但有时有这样的情况,即语音检测器16可能检测出几个含背景音的帧,然后是一些含语音的帧,接着是一些含新背景音的帧。由于这个原因,缓冲器52储存的是“有效时间”内的能量值,就是说,只计算和储存含背景音的帧。也正是出于这个原因,各能量估算值可以连同其相应的帧号一起储存起来,因为这提供了确定在长时间没有背景音时能量值太旧以致不能将其联系起来的解决办法。
另一种可能发生的情况是,背景音的时间短,从而使计算出的能量值不大,而且在很长的时间内再也没有背景音。在此情况下,缓冲器52储存的能量值可能不足以在合理的时间内有效进行测试变量的计算。这种情况的解决办法是规定出暂停极限值,然后决定对这些含背景音的帧进行像对语音那样的处理,因为这时没有充分的根据来作出静态状况的决定。
此外,在某些情况下,当经确定某个帧含有非静态背景音时,最好将静态状况极限值γ从例如3.5降低到3.3,这是为了避免对以后各帧在“静态”与“非静态”之间反复考虑而作不出决定才这样做的。因此,若发现有非静态帧,则较简单的作法是将以后的各帧也归类为非静态的。当最终发现静态帧时,静态状况极限γ就再被增大。这种方法叫做“滞后法”。
另一种值得推荐的方法是“拖延法”。“拖延”的意思是信号鉴别器24作出的某个决定应该坚持至少一定数目的帧,例如5帧,才最后作出决定。最好“滞后法”与“拖延法”结合起来使用。
从以上所述的可知,图3的实施例须要有容量相当大的缓冲器52,一般情况为要有100-200个存储单元的容量(若帧号也储存起来则为200-400个存储单元)。鉴于这种缓冲器通常装在存储器资源极缺乏的一个信号处理器中,因而最好是减小缓冲器的容量。因此图4所示的信号鉴别器24的最佳实施例中改用由缓冲器控制器58控制的缓冲器52'。
缓冲器控制器58是用来将缓冲器52'控制成使其不致储存一些不必要的能量估算值E(Ti)。这是由于观察到只有最极端的能量估算值才真正与V的计算有关而这样做的。因此大致上只在缓冲器52'中储存一些大的和一些小的能量估算值就可以了,于是将缓冲器52'分成两个缓冲器MAXBUF(最大缓中器)和MINBUF(最小缓冲器)。由于旧的能量估算值经过一段时间之后应从缓冲器中消失,因而还有必要把相应能量值的帧号也存入MAXBUF和MINBUF中。由缓冲器控制器58进行的将各值存入缓冲器52'中的可使用的一种算法在附录中的Pascal程序中有详细介绍。
图4的实施例比起图3的实施例稍微差一点。原因在于例如当MAXBUF中存有较大但较旧的帧能量时就可能不能将大的帧能量输入MAXBUF中。在此情况下。该特定帧能量虽然在以后当先前的一些大的(但是旧的)帧能量已被移出时实际上还可能是有效的,但这时却消失了。因此实际上计算的并不是V而是可用下式表示的V′T:
然而,从实用观点看,这个实施例是“够好”的了,它使所需的缓冲器容量从100-200个被储存能量估算值大幅度减少到大约10个估算值(5个存入MINBUF)。
上面在说明图2时说过,信号鉴别器24'没有机会使用信号S(n)。但由于滤波或激励参数通常都含表示帧能量的参数,因而能量估算值可以从该参数求出。例如,按照美国标准IS-54,帧能量是用激励参数r(o)表示的。(当然也可以在图1的信号鉴别器24中用r(o)作为能量估算值。)另一种办法是将信号鉴别器24'和参数调节器36移到图2中语音译码器38的右侧。这样,信号鉴别器24′就有机会使用表示译码信号的信号40,即该信号与图1中的信号s(n)形式相同。但这样做就须要在参数调节器36后面另设语音译码器来重视经调节的信号。
在上面说明信号鉴别器24,24'时假设静态情况是根据能量计算结果决定的,但能量终究仅仅是许多可用来检测静态状况不同等级的统计瞬时值之一。因此,本发明也使用二级瞬时值(相当于信号的能量或偏差)的其它统计瞬时值。此外还可以试验不同静态状况等级的若干统计瞬时值,并根据这些试验结果最后决定静态状况。
此外,上述规定的测试变量V并不是唯一可用的测试变量。例如还可以按下式规定另一个测试变量: 其中表达式<dE(Ti)/dt>是逐帧能量变化率的估算值。例如可以用Kalman滤波器例如根据线性趋势模型(见A.Gelb著的“应用最佳估算法”,MIT出版社,1988年版)计算估算值。但本说明书中早先限定的测试变量V具有我们所希望有的特点,即它与换算因数无关,这样,信号鉴别器就对背景音的水平不敏感。
本技术领域的行家们都知道,在不脱离本发明精神和在所附权利要求书范围内是可以对本明作种种修改的。其中表达式<dE(Ti)/dt>是逐帧能量变化率的估算值。例如可以用Kalman滤波器例如根据线性趋势模型(见A.Gelb著的“应用最佳估算法”,MIT出版社,1988年版)计算估算值。但本说明书中早先限定的测试变量V具有我们所希望有的特点,即它与换算因数无关,这样,信号鉴别器就对背景音的水平不敏感。
本技术领域的行家们都知道,在不脱离本发明精神和在所附权利要求书范围内是可以对本明作种种修改的。
附录
PROCEDURE FLstatDet( ZFLacf : realAcfVectorType; {In } ZFLsp : Boolean; {In } ZFLnrMinFrames: Integer; {In } ZFLnrFrames : Integer; {In } ZFLmaxThresh : Real; {In } ZFLminThresh : Real; {In } VAR ZFLpowOld : Real; {In/Out} VAR ZFLnrSaved : Integer; {In/Out} VAR ZFLmaxBuf : realStatBufType; {In/Out} VAR ZFLmaxTime : integerStatBufType;{In/Out} VAR ZFLminBuf : realStatBufType; {In/Out} VAR ZFLminTime : integerStatBufType;{In/Out} VAR ZFLprelNoStat : Boolean); {In/Out} VAR i : Integer; maximum,minimum : Real; powNow,testVar : Real; oldNoStat : Boolean; replaceNr : Integer; LABEL statEnd; BEGIN oldNoStat:=ZFLprelNoStat; ZFLprelNoStat:=ZFLsp; IF NOT ZFLsp AND (ZFLacf[0]>0) THEN BEGIN {If not speech} ZFLprelNoStat:=True; ZFLnrSaved:=ZFLnrSaved+1; <dp n="d12"/> powNow:=ZFLacf[0]+ZFLpowOld; ZFLpowOld:=ZFLacf[0]; IF ZFLnrSaved<2 THEN GOTO statEnd; IF ZFLnrSaved>ZFLnrFrames THENZFLnrSaved:=ZFLnrFrames; {Check if there is an old element in max buffer } FOR i:=1 TO statBufferLength DO BEGIN ZFLmaxTime[i]:= ZFLmaxTime[i]+1; IF ZFLmaxTime[i]>ZFLnrFrames THEN BEGIN ZFLmaxBuf[i]:=powNow; ZFLmaxTime[i]:=1; END; END; {Check if there is an old element in min buffer} FOR i:=1 TO statBufferLength DO BEGIN ZFLminTime[i]:=ZFLminTime[i]+1; IF ZFLminTime[i]>ZFLnrFrames THEN BEGIN ZFLminBuf[i]:=powNow; ZFLminTime[i]:=1; END; END; maximum:=-1E38; minimum:=-maximum; replaceNr:=0; {Check if an element in max buffer is to be substituted, find maximum } FOR i:=1 TO statBufferLength DO BEGIN IF powNow>=ZFLmaxBuf[i] THEN replaceNr:=i; <dp n="d13"/> IF ZFLmaxBuf[i]>=maximum THEN maximum:=ZFLmaxBuf[i]; END; IF replaceNr>0 THEN BEGIN ZFLmaxTime[replaceNr]:=1; ZFLmaxBuf[replaceNr]:=powNow; IF ZFLmaxBuf[replaceNr]>=maximum THEN maximum:=ZFLmaxBuf[replaceNr]; END; replaceNr:=0; {Check if an element in min buffer is to be substituted, find minimum FOR i:=1 TO statBufferLength DO BEGIN IF powNow<=ZFLminBuf[i] THEN replaceNr:=i; IF ZFLminBuf[i]<=minimum THEN minimum:=ZFLminBuf[i]; END; IF replaceNr>0 THEN BEGIN ZFLminTime[replaceNr]:=1; ZFLminBuf[replaceNr]:=powNow; IF ZFLminBuf[replaceNr]>=minimum THEN minimum:=ZFLminBuf[replaceNr]; END; IF ZFLnrSaved>=ZFLnrMinFrames THEN BEGIN <dp n="d14"/> IF minimum>1 THEN BEGIN {Calculate test variable} testVar:=maximum/minimum; {If test variable is greater than maxThresh,decide speech If test variable is less than minThresh,decide babble If test variable is between,keep previous decision } ZFLprelNoStat:=oldNoStat; IF testVar>ZFLmaxThresh THEN ZFLprelNoStat:=True; IF testVar<ZFLminThresh THEN ZFLprelNoStat:=False; END; END; END; statEnd: END; PROCEDURE FLhangHandler( ZFLmaxFrames :Integer; {In } ZFLhangFrames :Integer; {In } ZFLvad :Boolean; {In } VAR ZFLelapsedFrames:Integer; {In/Out} VAR ZFLspHangover :Integer; {In/Out} VAR ZFLvadOld :Boolean; {In/Out} VAR ZFLsp :Boolean); {Out } <dp n="d15"/> BEGIN {Delays change of decision from speech to no speech hangFrames number of frames However,this is not done if speech has lasted less than maxFrames frames } ZFLsp:=ZFLvad; IF(ZFLelapsedFramez<ZFLmaxFrames)THEN ZFLelapsedFrames:=ZFLelapsedFrames+1; IF ZFLvadOld AND NOT ZFLvad THEN ZFLspHangOver:=1; IF(ZFLspHangOver<ZFLhangFrames) AND NOT ZFLvad THEN BEGIN ZFLspHangOver := ZFLspHangOver +1; ZFLsp:=True; END; IF NOT ZFLvad AND(ZFLelapsedFrames<ZFLmaxFrames)THEN ZFLsp:=False; IF NOT ZFLsp AND(ZFLspHangOver>ZFLhangFrames-1)THEN ZFLelapsedFrames:=0; ZFLvadOld:=ZFLvad; END;
Claims (9)
1.一种鉴别静态和非静态信号,例如表示移动无线电通信系统中的背景音的信号的方法,其特征在于包括以下步骤:
(a)估出信号在预定长度的时间窗T的各N时间子窗Ti中的统计瞬时值之一,其中N>2;
(b)估出步聚(a)中得出的估算值的变量作为衡量所述信号静态状况的尺度;
(c)确定步骤(b)中得出的变量估算值是否超过预定的静态状况极限值γ。
2.如权利要求1所述的方法,其特征在于,在步骤(a)中估出二级统计瞬时值。
3.如权利要求1或2所述的方法,其特征在于,在步骤(a)中估出各时间子窗Ti中的信号能量E(Ti)。
4.如权利要求3所述的方法,其特征在于,所述信号是离散时间信号。
5.如权利要求4所述的方法,其特征在于,所述估出的变量按下式求出:
6.如权利要求4所述的方法,其特征在于,所述估出的变量按下式求出:
其中MAXBUF是只储存最近的最大能量估算值的缓冲器,MINBUF是只储存最近的最小能量估算值的缓冲器。
7.如权利要求5或6所述的方法,其特征在于,复用共同覆盖所述时间窗T的时间子窗Ti。
8.如权利要求7所述的方法,其特征在于,时间窗Ti的大小相同。
9.如权利要求8所述的方法,其特征在于,所述各时间子窗Ti包括两个连续的语音帧。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SE9301798 | 1993-05-26 | ||
SE9301798A SE501305C2 (sv) | 1993-05-26 | 1993-05-26 | Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN94190318A Division CN1046366C (zh) | 1993-05-26 | 1994-05-11 | 静态和非静态信号的鉴别 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1218945A true CN1218945A (zh) | 1999-06-09 |
Family
ID=20390059
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN94190318A Expired - Fee Related CN1046366C (zh) | 1993-05-26 | 1994-05-11 | 静态和非静态信号的鉴别 |
CN97101022A Pending CN1218945A (zh) | 1993-05-26 | 1997-01-06 | 静态和非静态信号的鉴别 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN94190318A Expired - Fee Related CN1046366C (zh) | 1993-05-26 | 1994-05-11 | 静态和非静态信号的鉴别 |
Country Status (19)
Country | Link |
---|---|
US (1) | US5579432A (zh) |
EP (1) | EP0653091B1 (zh) |
JP (1) | JPH07509792A (zh) |
KR (1) | KR100220377B1 (zh) |
CN (2) | CN1046366C (zh) |
AU (2) | AU670383B2 (zh) |
CA (1) | CA2139628A1 (zh) |
DE (1) | DE69421498T2 (zh) |
DK (1) | DK0653091T3 (zh) |
ES (1) | ES2141234T3 (zh) |
FI (1) | FI950311A0 (zh) |
GR (1) | GR3032107T3 (zh) |
HK (1) | HK1013881A1 (zh) |
NZ (1) | NZ266908A (zh) |
RU (1) | RU2127912C1 (zh) |
SE (1) | SE501305C2 (zh) |
SG (1) | SG46977A1 (zh) |
TW (1) | TW324123B (zh) |
WO (1) | WO1994028542A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101308651B (zh) * | 2007-05-17 | 2011-05-04 | 展讯通信(上海)有限公司 | 音频暂态信号的检测方法 |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2317084B (en) * | 1995-04-28 | 2000-01-19 | Northern Telecom Ltd | Methods and apparatus for distinguishing speech intervals from noise intervals in audio signals |
AUPO170196A0 (en) * | 1996-08-16 | 1996-09-12 | University Of Alberta | A finite-dimensional filter |
US6058359A (en) * | 1998-03-04 | 2000-05-02 | Telefonaktiebolaget L M Ericsson | Speech coding including soft adaptability feature |
US7254532B2 (en) | 2000-04-28 | 2007-08-07 | Deutsche Telekom Ag | Method for making a voice activity decision |
DE10026872A1 (de) | 2000-04-28 | 2001-10-31 | Deutsche Telekom Ag | Verfahren zur Berechnung einer Sprachaktivitätsentscheidung (Voice Activity Detector) |
JP3812887B2 (ja) * | 2001-12-21 | 2006-08-23 | 富士通株式会社 | 信号処理システムおよび方法 |
CA2420129A1 (en) * | 2003-02-17 | 2004-08-17 | Catena Networks, Canada, Inc. | A method for robustly detecting voice activity |
US8457953B2 (en) | 2007-03-05 | 2013-06-04 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and arrangement for smoothing of stationary background noise |
WO2008108721A1 (en) | 2007-03-05 | 2008-09-12 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and arrangement for controlling smoothing of stationary background noise |
CN101546556B (zh) * | 2008-03-28 | 2011-03-23 | 展讯通信(上海)有限公司 | 用于音频内容识别的分类系统 |
UA99878C2 (ru) | 2009-01-16 | 2012-10-10 | Долби Интернешнл Аб | Гармоническое преобразование, усовершенствованное перекрестным произведением |
KR101826331B1 (ko) | 2010-09-15 | 2018-03-22 | 삼성전자주식회사 | 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법 |
SG191771A1 (en) * | 2010-12-29 | 2013-08-30 | Samsung Electronics Co Ltd | Apparatus and method for encoding/decoding for high-frequency bandwidth extension |
US10230346B2 (en) | 2011-01-10 | 2019-03-12 | Zhinian Jing | Acoustic voice activity detection |
US10325588B2 (en) | 2017-09-28 | 2019-06-18 | International Business Machines Corporation | Acoustic feature extractor selected according to status flag of frame of acoustic signal |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4544919A (en) * | 1982-01-03 | 1985-10-01 | Motorola, Inc. | Method and means of determining coefficients for linear predictive coding |
GB2137791B (en) * | 1982-11-19 | 1986-02-26 | Secr Defence | Noise compensating spectral distance processor |
EP0127718B1 (fr) * | 1983-06-07 | 1987-03-18 | International Business Machines Corporation | Procédé de détection d'activité dans un système de transmission de la voix |
US5276765A (en) * | 1988-03-11 | 1994-01-04 | British Telecommunications Public Limited Company | Voice activity detection |
IE61863B1 (en) * | 1988-03-11 | 1994-11-30 | British Telecomm | Voice activity detection |
GB2239971B (en) * | 1989-12-06 | 1993-09-29 | Ca Nat Research Council | System for separating speech from background noise |
EP0538536A1 (en) * | 1991-10-25 | 1993-04-28 | International Business Machines Corporation | Method for detecting voice presence on a communication line |
SE470577B (sv) * | 1993-01-29 | 1994-09-19 | Ericsson Telefon Ab L M | Förfarande och anordning för kodning och/eller avkodning av bakgrundsljud |
US5459814A (en) * | 1993-03-26 | 1995-10-17 | Hughes Aircraft Company | Voice activity detector for speech signals in variable background noise |
-
1993
- 1993-05-26 SE SE9301798A patent/SE501305C2/sv not_active IP Right Cessation
-
1994
- 1994-05-11 AU AU69016/94A patent/AU670383B2/en not_active Ceased
- 1994-05-11 WO PCT/SE1994/000443 patent/WO1994028542A1/en active IP Right Grant
- 1994-05-11 CN CN94190318A patent/CN1046366C/zh not_active Expired - Fee Related
- 1994-05-11 TW TW083104232A patent/TW324123B/zh active
- 1994-05-11 EP EP94917227A patent/EP0653091B1/en not_active Expired - Lifetime
- 1994-05-11 CA CA002139628A patent/CA2139628A1/en not_active Abandoned
- 1994-05-11 DE DE69421498T patent/DE69421498T2/de not_active Expired - Fee Related
- 1994-05-11 SG SG1996000608A patent/SG46977A1/en unknown
- 1994-05-11 RU RU95107694A patent/RU2127912C1/ru active
- 1994-05-11 JP JP7500526A patent/JPH07509792A/ja active Pending
- 1994-05-11 ES ES94917227T patent/ES2141234T3/es not_active Expired - Lifetime
- 1994-05-11 DK DK94917227T patent/DK0653091T3/da active
- 1994-05-11 NZ NZ266908A patent/NZ266908A/en unknown
- 1994-05-11 KR KR1019950700299A patent/KR100220377B1/ko not_active IP Right Cessation
- 1994-05-25 US US08/248,714 patent/US5579432A/en not_active Expired - Fee Related
-
1995
- 1995-01-24 FI FI950311A patent/FI950311A0/fi unknown
-
1996
- 1996-03-14 AU AU48112/96A patent/AU681551B2/en not_active Ceased
-
1997
- 1997-01-06 CN CN97101022A patent/CN1218945A/zh active Pending
-
1998
- 1998-12-23 HK HK98115224A patent/HK1013881A1/xx not_active IP Right Cessation
-
1999
- 1999-12-13 GR GR990403198T patent/GR3032107T3/el unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101308651B (zh) * | 2007-05-17 | 2011-05-04 | 展讯通信(上海)有限公司 | 音频暂态信号的检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CA2139628A1 (en) | 1994-12-08 |
AU6901694A (en) | 1994-12-20 |
KR950702732A (ko) | 1995-07-29 |
NZ266908A (en) | 1997-03-24 |
SG46977A1 (en) | 1998-03-20 |
AU670383B2 (en) | 1996-07-11 |
DK0653091T3 (da) | 2000-01-03 |
WO1994028542A1 (en) | 1994-12-08 |
KR100220377B1 (ko) | 1999-09-15 |
ES2141234T3 (es) | 2000-03-16 |
DE69421498T2 (de) | 2000-07-13 |
EP0653091B1 (en) | 1999-11-03 |
US5579432A (en) | 1996-11-26 |
CN1046366C (zh) | 1999-11-10 |
AU681551B2 (en) | 1997-08-28 |
AU4811296A (en) | 1996-05-23 |
SE501305C2 (sv) | 1995-01-09 |
FI950311A (fi) | 1995-01-24 |
CN1110070A (zh) | 1995-10-11 |
EP0653091A1 (en) | 1995-05-17 |
RU2127912C1 (ru) | 1999-03-20 |
DE69421498D1 (de) | 1999-12-09 |
GR3032107T3 (en) | 2000-03-31 |
HK1013881A1 (en) | 1999-09-10 |
SE9301798L (sv) | 1994-11-27 |
TW324123B (en) | 1998-01-01 |
SE9301798D0 (sv) | 1993-05-26 |
JPH07509792A (ja) | 1995-10-26 |
FI950311A0 (fi) | 1995-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102089803B (zh) | 用以将信号的不同段分类的方法与鉴别器 | |
US5579435A (en) | Discriminating between stationary and non-stationary signals | |
CN101197130B (zh) | 声音活动检测方法和声音活动检测器 | |
CN1064772C (zh) | 语音活动性检测器 | |
CN1218945A (zh) | 静态和非静态信号的鉴别 | |
EP1719119B1 (en) | Classification of audio signals | |
CN1969319B (zh) | 在通信系统中对帧进行编码的方法和编码器 | |
KR100742443B1 (ko) | 손실 프레임을 처리하기 위한 음성 통신 시스템 및 방법 | |
JP3840684B2 (ja) | ピッチ抽出装置及びピッチ抽出方法 | |
WO2008058842A1 (en) | Voice activity detection system and method | |
US9240191B2 (en) | Frame based audio signal classification | |
CN1296607A (zh) | 用于经噪声补偿的话音识别的系统和方法 | |
CN1335980A (zh) | 借助于映射矩阵的宽频带语音合成 | |
CN102714034B (zh) | 信号处理的方法、装置和系统 | |
AU6403298A (en) | Speech coding | |
CN102446506A (zh) | 音频信号的分类识别方法及装置 | |
EP0634041B1 (en) | Method and apparatus for encoding/decoding of background sounds | |
US20030046070A1 (en) | Speech detection system and method | |
US20030046069A1 (en) | Noise reduction system and method | |
NZ286953A (en) | Speech encoder/decoder: discriminating between speech and background sound |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C06 | Publication | ||
PB01 | Publication | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: WD Ref document number: 1021239 Country of ref document: HK |