CN1624766A - 语音编码中噪音鲁棒分类方法 - Google Patents

语音编码中噪音鲁棒分类方法 Download PDF

Info

Publication number
CN1624766A
CN1624766A CNA2004100889661A CN200410088966A CN1624766A CN 1624766 A CN1624766 A CN 1624766A CN A2004100889661 A CNA2004100889661 A CN A2004100889661A CN 200410088966 A CN200410088966 A CN 200410088966A CN 1624766 A CN1624766 A CN 1624766A
Authority
CN
China
Prior art keywords
parameter
noise
parameters
classification
background noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2004100889661A
Other languages
English (en)
Other versions
CN1302460C (zh
Inventor
J·塞斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WIAV Solutions LLC
Original Assignee
Conexant Systems LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Conexant Systems LLC filed Critical Conexant Systems LLC
Publication of CN1624766A publication Critical patent/CN1624766A/zh
Application granted granted Critical
Publication of CN1302460C publication Critical patent/CN1302460C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02168Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Abstract

在此提供了一种在语音编码中进行鲁棒语音分类,特别是在存在背景噪音的情况下进行鲁棒分类的方法。推导一组无噪音的参数,由此降低背景噪音对分类处理过程的负面影响。语音信号被识别为语音或非语音。对于该语音帧推导一组基本参数,然后估计并除去这些参数的噪音分量。如果该帧是非语音帧,则更新噪音估计。然后将该所有参数与一组预定的阈值比较。因为已经从参数中除去背景噪音,该组阈值很大程度上不受噪音变化的影响。帧被分类为许多类别,由此通过进行感知匹配而不是波形匹配强调感知的重要特征。

Description

语音编码中噪音鲁棒分类方法
本申请是同一申请人在2001年8月17日提交的、申请号为01814418.7的专利申请的分案申请。
技术领域
本发明一般地涉及一种改进了的语音分类的方法,具体地涉及一种语音编码中鲁棒(robust)语音分类方法。
背景技术
关于语音通信,背景噪音可能包括经过的驾驶者、头顶上的飞行器、诸如餐馆/咖啡屋型噪音的模糊言语(babble)噪音、音乐及许多其它听得见的噪音。蜂窝式电话技术带来了在任何可接收和发送无线信号的地点都能够进行通信的便利。然而,所谓“蜂窝时代”的不利方面在于电话谈话可能不再是私密的或不再是处于确实适于通信的区域。例如,一旦蜂窝式电话响铃且用户应答,则不论用户是在安静的公园还是在嘈杂的风钻附近都实施语音通信。由此,背景噪音的影响便是蜂窝式电话用户和供应商主要关心的问题。
分类是语音处理中一个重要的工具。一般地,语音信号被分为多个不同的种类,原因之一是在编码期间强调信号的感知的重要特征。当语音纯净或没有背景噪音时,较易于实现鲁棒分类(即错误分类语音帧的小概率)。然而,随着背景噪音水平的增加,对语音有效的和精确的分类就成为问题。
在电信行业中,按ITU(国际电信联盟)标准或其它标准诸如无线GSM(全球移动通信系统),数字化语音并对其进行压缩。根据压缩量及应用需要的不同有很多标准。最好在发送之前对信号进行高度的压缩,因为随着压缩的增加,位速率会降低。这允许在相同的带宽量中传送更多的信息,因而可节省带宽、功率和存储器。然而,随着位速率的降低,语音真实的再现变得越来越困难。例如,对于电话应用而言(语音信号的频率带宽大约为3.3kHz),数字语音信号一般为16位线性或128kbits/s。ITU-T标准G.711工作在64kbits/s或线性PCM(脉冲编码调制)数字语音信号的一半。随着对带宽需求的上升这些标准不断降低位速率(例如,G.726为32kbits/s;G.728为16kbits/s;G.729为8kbits/s)。当前正研究的标准将把位速率降低至更低的4kbits/s。
通常,基于一组参数对语音分类,且对于这些参数,设置一阈值水平以便确定适当的分类。当环境中存在背景噪音(例如,同时具有附加语音和噪音)时,由于该噪音,所推导的用于分类的参数通常重叠或增加。当前的解决方案包括估计一给定环境中的背景噪音水平,且根据该水平改变阈值。这些技术的一个问题是这些阈值的控制向分类器增加了另一维。这增加了调节阈值的复杂性,且对于所有噪音水平找到一最优设置一般是不现实的。
例如,一般推导的参数是与语音周期性如何相关的音调相关(pitchcorrelation)。即使是高的浊音语音,诸如元音“a”,当存在背景噪音时,由于噪音的随机性特征,周期性也会显得很不明显。
在本技术领域中已知有若干复杂的算法旨在基于降低的噪音信号估计参数。例如,在这样的一个算法中,在噪音污染的信号上运行完全噪音压缩算法。然后针对该降低的噪音信号估计参数。然而,这些算法非常复杂且消耗数字信号处理器(DSP)的能力和存储空间。
因此,需要一种复杂性较小的可在低位速率下使用的语音分类方法。具体地,需要一种改进的语音分类方法,使用该方法可使参数不受背景噪音的影响。
发明内容
本发明克服了以上概述的问题,并提供了一种改进的语音通信的方法。具体地,本发明提供了一种在背景噪音存在的情况下用于改进的语音分类的具有较小复杂性的方法。更具体地,本发明提供了一种在语音编码中用于改进的语音分类的鲁棒方法,使用该方法可降低背景噪音对参数的影响。
根据本发明的一个方面,通过估计净语音的参数获得与背景噪音水平无关的一组均一(homogeneous)的参数。
附图说明
参照以下说明、所附权利要求和附图,本发明的这些和其它特征、方面和优点将变得更易于理解,其中:
图1以方块图的形式简化示出在现有技术中语音处理的典型阶段;
图2以详细的方块图示出根据本发明的一示例性编码系统;
图3以详细是方块图示出图2的示例性决策逻辑;以及
图4为根据本发明的一示例性方法的流程图。
具体实施方式
本发明涉及在存在背景噪音的情况下的语音分类的改进方法。虽然用于语音通信的方法,具体地,这里公开的分类方法尤其适合于蜂窝式电话通信,但本发明不限于此。例如,本发明的分类方法可很好地适用于多种语音通信场合,诸如PSTN(公共交换电话网),无线,经由IP(因特网协议)的话音等。
与现有技术方法不同,本发明公开了一种表示输入信号的感知的重要特征并进行感知匹配而不是波形匹配的方法。应当理解,本发明表示的语音分类的方法可以是更大的语音编码算法的一部分。语音编码的算法为业界所广泛知晓。应当理解的是,本领域技术人员将会认识到在实现本发明之前和之后可进行多种处理步骤(例如,语音信号可以在实际的语音编码、基于公共帧的处理、模式相关的处理、及解码之前被预处理)。
作为介绍,图1以方块图的方式广义地示出现有技术中已知的语音处理的典型阶段。一般来说,语音系统100包括编码器102,位流的传送或存储装置104,以及解码器106。编码器102在系统中,特别是在非常低的位速率下起到关键作用。预发送处理在编码器102中进行,诸如从非语音中确定语音,推导参数,设置阈值,及对语音帧进行分类。典型地,对于高质量的语音通信,重要的是编码器(通常通过一种算法)考虑信号的类型,并基于该类型相应地处理该信号。本发明编码器的特定功能将在以下详细讨论,然而一般来说,编码器把语音帧分类为许多类别。包含在类中的信息将有助于进一步处理该语音。
编码器压缩该信号,且所得的位流被传送104到接收端。传送(无线或有线)是把位流从发送编码器102输送到接收解码器106。可替代地,位流可在解码之前被暂时存储,以便在诸如答录机或语音电子邮件的设备中延迟再现或重放。
位流在解码器106中被解码,以便恢复原始语音信号的采样。一般来说,不可能实现所恢复的语音信号与原始信号完全等同,但是使用增强的特征(诸如由本发明所提供的特征),可获得接近的采样。在某种程度上,解码器106可被看作是编码器102的逆。一般来说,由编码器102所执行的许多功能也可在解码器106中执行,但是是反向的。
虽然未示出,但应当理解,语音系统100可进一步包括话筒,以便实时接收语音信号。话筒将该语音信号提供给A/D(模拟至数字)转换器,在此语音被转换为数字形式,然后被传递给编码器102。此外,解码器106将该数字化的信号传递至D/A(数字至模拟)转换器,在此语音被转换回模拟形式,并被发送至扬声器。
如同现有技术那样,本发明包括含有基于CELP(码本激励线性预测)模型的算法的编码器或类似的装置。然而,为了以低位速率(例如4kbits/s)获得通行的质量,该算法在某种程度上脱离已知的CELP算法的严格波形匹配准则,而是力争捕获输入信号的感知重要特征。虽然本发明可能只是eX-CELP(扩展的CELP)算法的一个单独部分,但全面介绍该算法的全部功能是有帮助的。
根据某些特征例如噪音状内容程度、尖峰状内容程度、浊音内容程度、清音内容程度、幅值谱演变(evolution of magnitude spectrum)、能量轮廓演变、及周期性演变,对输入信号进行分析。在编码/量化处理过程期间该信息被用于控制加权。本方法总的原理具有以下特征:通过进行感知匹配而不是波形匹配精确表示感知的重要特征。这部分地基于以下假设,即在低位速率下,波形匹配不能充分精确地来真实地捕获该输入信号中的所有信息。该算法,包含本发明部分,可由C-代码或任何其它适当的业内已知的计算机和设备语言,例如汇编,来实现。虽然结合eX-CELP算法便于描述本发明,但应当理解,这里公开的用于改进的语言分类的方法可以只是一种算法的一部分,且可用于类似的已知的或尚待发现的算法中。
在一个实施例中,话音活动检测(VAD)被嵌入该编码器中,以便提供关于该输入信号特征的信息。该VAD信息被用于控制该编码器的若干方面,包括信号噪音比(SNR)的估计、音调估计、某些分类、谱平滑、能量平滑及增益标准化。一般来说,VAD区分语音与非语音输入。非语音可包能括背景噪音、音乐、静音等。基于该信息能够估计某些参数。
现在参见图2,编码器202以方块图的形式示出根据本发明一个实施例的分类器204。分类器204适当地包括参数推导模块206和决策逻辑208。分类可被用于在编码期间强调感知的重要特征。例如,分类可用于向信号帧施加不同的权重。分类不一定影响带宽,但它的确提供信息以改进解码器处(接收端)重构信号的质量。然而,在某些实施例中,还通过根据类别信息改变位速率而不仅是编码处理来影响带宽(位速率)。如果该帧是背景噪音,则它可被如此分类且可能期望保持该信号的随机特征。然而,如果该帧是浊音语音,则重要的可能是要保持信号的周期性。对语言帧的分类向编码器的其余部分提供信息以便能够将重点放在信号的重要特征上(即“加权”)。
分类基于一组推导的参数。本实施例中,分类器204包括参数推导模块206。一旦对特定的语言帧推导该组参数,这些参数或者单独地或者与其它参数组合地由决策逻辑208进行调整(measure)。决策逻辑208的细节将在以下讨论,然而一般来说,决策逻辑208将这些参数与一组阈值进行比较。
举例来说,蜂窝式电话用户可能在一特定的噪音环境中通信。随着背景噪音水平的增加,该推导的参数可能会改变。本发明提出一种方法,该方法在该参数水平上除去了背景噪音的贡献,由此产生出一组不随背景噪音水平改变的参数。换言之,本发明的一个实施例包括推导一组均一的参数,而不是具有随背景噪音水平变化的参数。这在存在背景噪音的情况下要在不同类型的语音诸如浊音语音、清音语音、和开始(onset)之间进行区分时尤其重要。为了实现这一点,仍然要对噪音污染的信号的参数进行估计,但基于那些参数和背景噪音的信息,由于噪音的贡献成分被除去。获得净信号(没有噪音)的参数的估计。
继续参考图2,在编码器202中接收数字语音信号用于处理。可能有这样的情形,即编码器210内的其它模块能够适当地推导这些参数中的某些参数,而不是分类器204重新推导这些参数。具体地,预处理的语音信号(例如这可能包括静音强化、高通滤波、及背景噪音衰减),帧的音调延迟和相关,及VAD信息可以被用作分类器204的输入参数。可替代地,该数字化的语音信号或该信号与其它模块参数两者的组合被输入到分类器204。基于这些输入参数和/或语音信号,参数推导模块206推导一组将用于对帧进行分类的参数。
在一实施例中,参数推导模块206包括基本参数推导模块212、噪音分量估计模块214、噪音分量除去模块216、及可选的参数推导模块218。在本实施例的一个方面中,基本参数推导模块212推导三种参数,谱倾斜,绝对最大值,及音调相关,它们可形成分类的基础。然而应当理解,参数的有效处理和分析可以在最后决策之前进行。这些最初的少数几个参数是对具有语音和噪音分量两者的信号的估计。以下对参数推导模块206的说明包括优选参数的例子,但是决不应当将其理解为限制性的。带有伴随方程式的参数的例子用于演示的目的,而不一定是作为唯一可用的参数和/或数学计算。实际上,本领域技术人员将相当熟悉以下的参数和/或方程式,并可能知道预期落入本发明范围的类似的或等价的替代。
谱倾斜是对第一反射系数的估计,每帧进行四次,由下式给出:
κ ( k ) = Σ n = 1 L - 1 s k ( n ) · s k ( n - 1 ) Σ n = 0 L - 1 s k ( n ) 2 , k = 0,1 , . . . , 3 , - - - ( 1 )
其中L=80是在其上可适当地计算反射系数的窗口,而sk(n)是第k段,由下式给出:
s k ( n ) = s ( k · 40 - 20 + n ) · w h ( n ) , n = 0,1 , . . . 79 , - - - ( 2 )
其中wh(n)是业内已知的一个80采样汉明(Hamming)窗口,而s(0),s(1),...,s(159)是该预处理语音信号的当前帧。
绝对最大值是对绝对信号最大值的跟踪,每帧八个估计,由下式给出:x(k)=max{|s(n)|,n=ns(k),ns(k)+1,...,ne(k)-1},k=0,1,...,7    (3)
其中ns(k)与ns(k)分别是用于在该帧的k160/8个采样时刻搜索第k个最大值的起始点与结束点。一般来说,段的长度为音调周期的1.5倍,且这些段重叠。这样,可获得振幅包络的平滑轮廓。
音调延迟的标准化的标准偏差表明该音调周期。例如,在浊音语音中,音调周期是稳定的,而对于清音音语音它是不稳定的:
σ L p ( m ) = 1 μ L p ( m ) Σ l = 0 2 ( L p ( m - 2 + l ) - μ L p ( m ) ) 2 3 , - - - ( 4 )
其中LP(m)为输入音调延迟,μLp(m)为在过去三个帧上的音调延迟的平均值,由下式给出:
μ L p ( m ) = 1 3 Σ l = 0 2 ( L p ( m - 2 + l ) . - - - ( 5 )
在一个实施例中,噪音分量估计模块214由VAD控制。例如,如果VAD指示该帧是非语音帧(即背景噪音),则更新由噪音分量估计模块214定义的参数。但是,如果VAD指示该帧是语音,则模块214不被更新。在参数空间具有精细的时间分辨率的情况下,对由以下示例性方程式定义的参数适当地每帧进行八次估计/采样。
噪音能量的游动平均(running mean)是对噪音能量的估计,由下式给出:
<EN.p(k)>=α1·<EN.p(k-1)>+(1-α1)·Ep′(k),    (6)
其中EN,P(k)是在该帧的k160/8个采样时刻该音调周期的标准化能量。应当注意,在其上计算能量的这些段可能会重叠,因为音调周期一般超过20个采样(160采样/8)。
由下式给出噪音的谱倾斜的游动平均:
N(k)>=α1·<κN(k-1)>+(1-α1)·κ(kmod2).    (7)
由下式给出噪音的绝对最大值的游动平均:
<xN(k)>=α1·<xN(k-1)>+(1-α1)·x(k).           (8)
由下式给出噪音的音调相关的游动平均:
<RN,p(k)>=α1·<RN,p(k-1)>+(1-α1)·Rp,       (9)
其中RP是该帧的输入音调相关。自适应常数α优选是自适应的,虽然一个典型值为α=0.99。
背景噪音与信号比可根据下式计算:
&gamma; ( k ) = < E N , p ( k ) > E p ( k ) . - - - ( 10 )
参数噪音衰减被适当地限制为可接受的水平,例如大约30dB,即
γ(k)={γ(k)>0.968?0.968:γ(k)}    (11)
噪音除去模块216根据以下示例性方程式将加权应用到这三个基本的参数。该加权通过减去来自背景噪音的贡献除去这些参数中的背景噪音分量。这提供了与任何背景噪音无关且更一致的无噪音的一组参数(加权参数),并改进了在存在背景噪音的情况下该分类的鲁棒性。
由下式估计加权的谱倾斜:
κw(k)=κ(k mod 2)-γ(k)·<κN(k)>.          (12)
由下式估计加权的绝对最大值:
xw(k)=x(k)-γ(k)·<xN(k)>.                    (13)
由下式估计加权的音调相关:
Rw,p(k)=Rp-γ(k)·<RN.p(k)>.                 (14)
然后可在决策逻辑208中比较这些推导的参数。可选地,可能期望推导与该具体应用相关的一个或多个以下参数。可选模块218包括可用来进一步帮助对帧进行分类的许多附加参数。同样,以下参数和/或方程式仅用于示例性的目的,而非用于限制。
在一个实施例中,可能期望根据一个或多个先前的参数估计该帧的演变。该演变是在一个时间间隔上的估计(例如8次/帧),并且是线性近似。
作为第一阶近似的斜率的加权倾斜的演变由下式给出:
&PartialD; &kappa; w ( k ) = &Sigma; l = 1 7 l &CenterDot; ( &kappa; w ( k - 7 + l ) - &kappa; w ( k - 7 ) ) &Sigma; l = 1 7 l 2 . - - - ( 15 )
作为第一阶近似的斜率的加权最大值的演变由下式给出:
&PartialD; &chi; w ( k ) = &Sigma; l = 1 7 l &CenterDot; ( &chi; w ( k - 7 + l ) - &chi; w ( k - 7 ) ) &Sigma; l = 1 7 l 2 . - - - ( 16 )
在另一实施例中,一旦对于该帧的示例性的八个采样点更新方程式6到16的参数,即可计算以下基于帧的参数:
最大加权音调相关(该帧的最大值),由下式给出:
R w , p max = max { R w , p ( k - 7 + l ) , l = 0,1 , . . . , 7 } . - - - ( 17 )
平均加权音调相关由下式给出:
R w , p avg = 1 8 &Sigma; l = 0 7 R w , p ( k - 7 + l ) . - - - ( 18 )
平均加权音调相关的游动平均由下式给出:
< R w , p avg ( m ) > = &alpha; 2 &CenterDot; < R w , p avg ( m - 1 ) > + ( 1 - &alpha; 2 ) &CenterDot; R w , p avg , - - - ( 19 )
其中m是帧数,而α2=0.75是示例性自适应常数。
最小加权谱倾斜由下式给出:
&kappa; m min = min { &kappa; w ( k - 7 + l ) , l = 0,1 , . . . , 7 } . - - - ( 20 )
最小加权谱倾斜的游动平均由下式给出:
< &kappa; w min ( m ) > = &alpha; 2 &CenterDot; < &kappa; w min ( m - 1 ) > + ( 1 - &alpha; 2 ) &CenterDot; &kappa; w min . - - - ( 21 )
平均加权谱倾斜由下式给出
&kappa; w avg = 1 8 &Sigma; l = 0 7 &kappa; w ( k - 7 + l ) . - - - ( 22 )
加权倾斜的最小斜率(指示该帧中负的谱倾斜方向的最大演变)由下式给出:
&PartialD; &kappa; w min = min { &PartialD; &kappa; w ( k - 7 + l ) , l = 0,1 , . . . 7 } . - - - ( 23 )
加权谱倾斜的累积斜率(指示谱演变的总体一致性)由下式给出:
&PartialD; &kappa; w acc = &Sigma; l = 0 7 &PartialD; &kappa; w ( k - 7 + l ) . - - - ( 24 )
加权的最大值的最大斜率由下式给出:
&PartialD; &chi; w max = max { &PartialD; &chi; w ( k - 7 + l ) , l = 0,1 , . . . , 7 } . - - - ( 25 )
加权的最大值的累积斜率由下式给出:
&PartialD; &chi; w acc = &Sigma; l = 0 7 &PartialD; &chi; w ( k - 7 + l ) . - - - ( 26 )
一般来说,由方程式23,25和26给出的参数可用来标记一帧是否很可能包含一个开始(即,浊音语音起始点)。由方程式4和18-22给出的参数可用来标记一帧是否很可能是浊音语音占优势。
现在参见图3,以方块图形式示出根据本发明一实施例的决策逻辑208。决策逻辑208是设计来将所有这些参数与一组阈值进行比较的模块。在决策逻辑208中可比较任意数量的所需参数,一般表示为(1,2,...,k)。典型地,每一参数或一组参数将标识该帧的一特定特征。例如,特征#1 302可以是语音对非语音比较检测。在一实施例中,VAD可指示示例性特征#1。如果VAD确定该帧是语音,则该语音通常被进一步识别为浊音(元音)或清音(例如“s”)。特征#2 304例如可以是浊音对清音语音的检测。可以包括任意数量的特征且该许多特征可包含一个或多个推导的参数。例如,一般识别的特征#M 306可以是开始检测,且可包含从方程式23、25和26推导的参数。每一特征可设置一个标志等来指示该特征已经或尚未被识别。
优选地在最终检测模块308中进行关于该帧属于哪一类别的最终决策。在模块308中接收所有这些标志并与优先权进行比较,所述优先权例如VAD作为最高优先权。在本发明中,这些参数是从语音本身推导来的,并且不受背景噪音的影响;因而,这些阈值一般不受变化的背景噪音的影响。一般来说,一系列“如果-则”(if-then)语句可以比较每一标志或一组标志。例如,假设每一特征(标志)由一参数表示,在一个实施例中,一个“如果”语句可以是:“如果参数1小于一个阈值,则归入X类”。在另一实施例中,该语句可以是:“如果参数1小于一个阈值且参数2小于一个阈值等等,则归入X类”。在另一实施例中,该语句可以是:“如果参数1乘以参数2小于一个阈值,则归入X类”。本领域技术人员易于认识到,在一适当的“如果-则”语句中,可包含任意数量单独或组合的参数。当然,也可能有效果相等的方法用于比较这些参数,所有这些都包含在本发明的范围内。
此外,最终决策模块308可包含一悬垂(overhang)。这里所使用的悬垂具有业内通用的意义。一般来说,悬垂的意思是考虑该信号类别的历史,即在某些信号类别之后某种程度上支持(favor)相同的信号类别,例如在从浊音向清音逐渐过渡时某种程度地支持浊音类别,以便不把带有低度浊音语音的段过早地归类为清音。
作为示范,以下是某些示例性类别的简要说明。应当理解,本发明可用于把语音分类为许多类别或类别的组合,且包含以下的说明只是为了向读者介绍一组可能的类别。
该示例性的eX-CELP算法根据帧的主要特征把该帧分类为六类之一。这些类被标记为:
0.静音/背景噪音
1.噪音状清音语音
2.清音
3.开始
4.爆破音,没有使用
5.不稳定浊音
6.稳定浊音
在所示的实施例中,类别4未被使用,这样,类别的数目是6。为了有效使用编码器中的可用信息,分类模块可被配置为使得它最初不区分类别5和6。而这一区分是在分类器之外可获得附加信息的另一模块的工作期间进行的。此外,分类模块最初可以不检测类别1,但可基于附加信息和对噪音状清音语音的检测在另一模块工作期间引入。因而,在一实施例中,该分类模块可区分分别使用类别号0,2,3和5的静音/背景噪音、清音、开始及浊音。
现在参见图4,示出根据本发明的一实施例的一示例性模块流程图。该示例性流程图可使用C代码或任何其它本专领域所知的适当的计算机语言实现。一般来说,图4所示的步骤类似于前述的公开。
数字化的语音信号被输入到编码器,以便处理和压缩为位流,或者进入到解码器的位流以便重构(步骤400)。信号(通常是逐帧)例如可来自蜂窝式电话(无线),因特网(经由IP的话音),或电话(PSTN)。本系统尤其适用于低位速率应用(4kbits/s),但也可用于其它位速率。
编码器可包括执行不同功能的若干模块。例如,VAD可指示输入信号是语音还是非语音(步骤405)。非语音典型地包括背景噪音、音乐和静音。诸如背景噪音的非语音是稳定的并保持稳定。另一方面,语音具有音调,因而音调相关在声音之间发生变化。例如,“s”具有非常低的音调相关,但“a”具有高的音调相关。虽然图4示出VAD,但应当理解,在某些特定实施例中VAD不是必须的。某些参数可在除去噪音分量之前被推导,且基于那些参数有可能估计出该帧是背景噪音还是语音。推导基本参数(步骤415),然而应当理解,可在编码器内不同的模块中计算用于编码的这些参数中的某些参数。为了避免冗余,在步骤415(或后继步骤425,430)中不再重新计算这些参数,但这些参数可用来推导进一步的参数或只是继续传送到分类装置。在这一步骤期间可推导许多基本参数,然而就举例来说,先前公开的方程式1-5是适用的。
来自VAD(或其相等物)的信息指示该帧是语音还是非语音。如果该帧是非语音,则噪音参数(例如噪音参数的均值)可被更新(步骤410)。可推导用于步骤410的参数的方程式的多种变形,然而就举例来说,先前公开的方程式6-11是适用的。本发明公开了一种估计净语音的参数的分类方法。其有利的原因之一是因为不断变化的背景噪音将不会显著影响该优化的阈值。无噪音参数组例如通过估计并除去参数的噪音分量(步骤425)而获得。又就举例而言,先前公开的方程式12-14是适用的。基于先前的步骤,可以推导或可以不推导附加的参数(步骤430)。可以考虑包括附加参数的多种变形,但就举例而言先前公开的方程式15-26是适用的。
一旦推导所需的参数,就将这些参数与一组预定的阈值进行比较(步骤435)。可个别地或与其它参数组合地比较这些参数。能够想到很多方法来比较这些参数,然而如先前公开的“如果-则”语句序列是适用的。
可能期望应用悬垂(步骤440)。这仅仅是允许分类器基于对该信号的历史的知识支持某些类别。因而,有可能利用语音信号如何在较长时段上演变的知识。现在,帧已准备好根据该应用来被分类为许多不同的类别之一(步骤445)。就举例而言,先前公开的类别(0-6)是适用的,但决非是要限制本发明的应用。
来自该被分类的帧的信息能够用来进一步处理语音(步骤450)。在一实施例中,分类被用来对该帧加权(例如步骤450),在另一实施例中,分类被用来确定位速率(未示出)。例如,常常期望保持浊音语音的周期性(步骤460),但又要保持噪音和清音语音(步骤455)的随机性(步骤465)。对于本领域技术人员来说许多其它分类信息的使用将会变得明显。一旦编码器内所有的过程都已经完成,编码器的功能结束(步骤470),且表示信号帧的位可被传送到解码器用于重构。可替代地,可在解码器中基于被解码的参数和/或重构的信号执行上述的分类处理过程。
这里以功能块组件和各处理步骤的方式对本发明进行了说明。应当理解,这些功能块可通过任意数量的被配置来执行规定功能的硬件组件来实现。例如,本发明可采用多种不同的集成电路组件,例如存储器单元,数字信号处理单元,逻辑单元,查找表等等,它们在一个或多个微处理器或其它控制装置的控制下可执行各种功能。此外,本领域技术人员将会理解,本发明可与许多数据传输协议结合实施,且这里所述的系统只是本发明的一个示例性应用。
应当理解,这里所示和所述的特定实现方式只是本发明及其最佳方式的示例,而决非是要限制本发明的范围。事实上,为了简短起见,在这里可能没有详述用于信号处理、数据传输,信令,及网络控制的传统技术,以及系统的其它功能方面(和系统的单独操作组件的组件)。此外,这里包含的各附图中所示的连接线路是要表示各种单元之间的示例性的功能关系和/或物理连接。应当注意,在实际的通信系统中可能存在许多可替换的或附加的功能关系或物理连接。
以上已经结合优选实施例对本发明进行了说明。然而,已经阅读了这一公开的本领域技术人员将认识到,在不背离本发明的范围的情况下可对优选实施例作出各种改变和修改。例如,在不背离本发明的精神的情况下可添加类似的形式。这些和其它改变或修改,都将被认为包含在如以下权利要求所表述的本发明的范围内。

Claims (23)

1.一种用于对包含具有背景噪音水平的背景噪音部分的语音信号分类的方法,该方法包括以下步骤:
从该语音信号中提取参数;
估计该参数的噪音分量;
从该参数除去该噪音分量以产生无噪音参数;
选择预定阈值,其中选择所述预定阈值的步骤不受所述背景噪音水平的影响;
比较该无噪音参数与预定阈值;以及
响应该比较步骤将该语音信号与一个类别相关联。
2.根据权利要求1的方法,其特征在于,还包括确定该信号是语音还是非语音的步骤。
3.根据权利要求2的方法,其特征在于,还包括如果该信号是非语音则更新噪音分量的步骤。
4.根据权利要求1的方法,其特征在于,推导至少一个参数来对该信号分类。
5.根据权利要求4的方法,其特征在于,推导一组基本参数以及至少一个噪音分量参数。
6.根据权利要求1的方法,其特征在于,所述比较步骤包括:
(a)使用至少一个所述参数识别该信号的至少一个特征;
(b)设置标志以指示该特征存在;
(c)在最终决策模块中接收至少一个标志;以及
(d)将一个类别与至少一个标志相关联。
7.根据权利要求1的方法,其特征在于,接收至少一个参数来对该信号分类。
8.根据权利要求4的方法,其特征在于,所述至少一个参数包括谱倾斜参数、音调相关参数和绝对最大值参数。
9.根据权利要求4的方法,其特征在于,所述除去步骤从所述至少一个参数中的每一个除去噪音分量以产生多个无噪音参数。
10.根据权利要求9的方法,其特征在于,所述比较步骤将多个无噪音参数中的每一个与多个相应预定阈值中的每一个进行比较。
11.根据权利要求1的方法,其特征在于,所述除去噪音分量的步骤包括对所述参数加权。
12.根据权利要求11的方法,其特征在于,对所述参数加权包括提取背景噪音成分。
13.根据权利要求1的方法,其特征在于,在所述除去步骤期间对谱倾斜参数加权以产生无噪音谱倾斜参数,在所述除去步骤期间对音调相关参数加权以产生无噪音音调相关参数以及在所述除去步骤期间对绝对最大值参数加权以产生无噪音绝对最大值参数。
14.一种用于处理包含具有背景噪音水平的背景噪音部分的语音信号的方法,该方法包括以下步骤:
从该语音信号中提取一组语音参数;
基于该语音参数形成一组无噪音参数;
选择预定的一组阈值,其中选择所述预定的一组阈值的步骤不受所述背景噪音水平影响;
比较所述无噪音参数的每一个与所述预定的一组阈值中的每个相应阈值;以及
基于比较步骤对该语音信号分类。
15.根据权利要求14的方法,其特征在于,该形成步骤包括:
估计该语音信号的噪音分量;以及
从每个所述语音参数除去该噪音分量。
16.根据权利要求14的方法,其特征在于,所述多个参数包括谱倾斜参数、音调相关参数和绝对最大值参数。
17.一种用于对包含具有背景噪音水平的背景噪音部分的语音信号分类的语音编码装置,该语音编码装置包括:
参数提取模块,配置成从语音信号提取参数以用于对该语音信号分类;
参数估计模块,配置成估计所述参数的噪音分量;
噪音除去模块,配置成从所述参数除去语音分量以产生无噪音参数;
比较模块,配置成将无噪音参数与预定阈值进行比较,其中所述预定阈值不受所述背景噪音水平影响;以及
分类模块,配置成响应所述比较模块将所述语音信号与一个类别相关联。
18.根据权利要求17的语音编码装置,其特征在于,提取多个参数以对该语音信号分类。
19.根据权利要求18的语音编码装置,其特征在于,所述多个参数包括谱倾斜参数、音调相关参数和绝对最大值参数。
20.根据权利要求18的语音编码装置,其特征在于,所述噪音除去模块从所述多个参数中的每一个除去噪音分量以产生多个无噪音参数。
21.根据权利要求20的语音编码装置,其特征在于,所述比较模块将多个无噪音参数中的每一个与多个相应预定阈值中的每一个进行比较。
22.根据权利要求17的语音编码装置,其特征在于,所述噪音除去模块对所述参数加权。
23.根据权利要求22的语音编码装置,其特征在于,对所述参数加权包括提取背景噪音成分。
CNB2004100889661A 2000-08-21 2001-08-17 语音编码中噪音鲁棒分类方法和装置 Expired - Fee Related CN1302460C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/643,017 US6983242B1 (en) 2000-08-21 2000-08-21 Method for robust classification in speech coding
US09/643,017 2000-08-21

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CNB018144187A Division CN1210685C (zh) 2000-08-21 2001-08-17 语音编码中噪音鲁棒分类方法

Publications (2)

Publication Number Publication Date
CN1624766A true CN1624766A (zh) 2005-06-08
CN1302460C CN1302460C (zh) 2007-02-28

Family

ID=24579015

Family Applications (2)

Application Number Title Priority Date Filing Date
CNB2004100889661A Expired - Fee Related CN1302460C (zh) 2000-08-21 2001-08-17 语音编码中噪音鲁棒分类方法和装置
CNB018144187A Expired - Fee Related CN1210685C (zh) 2000-08-21 2001-08-17 语音编码中噪音鲁棒分类方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CNB018144187A Expired - Fee Related CN1210685C (zh) 2000-08-21 2001-08-17 语音编码中噪音鲁棒分类方法

Country Status (8)

Country Link
US (1) US6983242B1 (zh)
EP (1) EP1312075B1 (zh)
JP (2) JP2004511003A (zh)
CN (2) CN1302460C (zh)
AT (1) ATE319160T1 (zh)
AU (1) AU2001277647A1 (zh)
DE (1) DE60117558T2 (zh)
WO (1) WO2002017299A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008067735A1 (fr) * 2006-12-05 2008-06-12 Huawei Technologies Co., Ltd. Procédé et dispositif de classement pour un signal sonore
CN102314884A (zh) * 2011-08-16 2012-01-11 捷思锐科技(北京)有限公司 语音激活检测方法与装置

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4178319B2 (ja) * 2002-09-13 2008-11-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理におけるフェーズ・アライメント
US7698132B2 (en) * 2002-12-17 2010-04-13 Qualcomm Incorporated Sub-sampled excitation waveform codebooks
GB0321093D0 (en) * 2003-09-09 2003-10-08 Nokia Corp Multi-rate coding
KR101008022B1 (ko) * 2004-02-10 2011-01-14 삼성전자주식회사 유성음 및 무성음 검출방법 및 장치
KR100735246B1 (ko) * 2005-09-12 2007-07-03 삼성전자주식회사 오디오 신호 전송 장치 및 방법
CN101197130B (zh) * 2006-12-07 2011-05-18 华为技术有限公司 声音活动检测方法和声音活动检测器
JP5140684B2 (ja) * 2007-02-12 2013-02-06 ドルビー ラボラトリーズ ライセンシング コーポレイション 高齢又は聴覚障害聴取者のための非スピーチオーディオに対するスピーチオーディオの改善された比率
KR100930584B1 (ko) * 2007-09-19 2009-12-09 한국전자통신연구원 인간 음성의 유성음 특징을 이용한 음성 판별 방법 및 장치
JP5377167B2 (ja) * 2009-09-03 2013-12-25 株式会社レイトロン 悲鳴検出装置および悲鳴検出方法
ES2371619B1 (es) * 2009-10-08 2012-08-08 Telefónica, S.A. Procedimiento de detección de segmentos de voz.
WO2011044848A1 (zh) * 2009-10-15 2011-04-21 华为技术有限公司 信号处理的方法、装置和系统
CN102467669B (zh) * 2010-11-17 2015-11-25 北京北大千方科技有限公司 一种在激光检测中提高匹配精度的方法和设备
BR112013026333B1 (pt) * 2011-04-28 2021-05-18 Telefonaktiebolaget L M Ericsson (Publ) método de classificação de sinal de áudio baseada em quadro, classificador de áudio, dispositivo de comunicação de áudio, e, disposição de codec de áudio
US8990074B2 (en) * 2011-05-24 2015-03-24 Qualcomm Incorporated Noise-robust speech coding mode classification
CN103177728B (zh) * 2011-12-21 2015-07-29 中国移动通信集团广西有限公司 语音信号降噪处理方法及装置
KR20150032390A (ko) * 2013-09-16 2015-03-26 삼성전자주식회사 음성 명료도 향상을 위한 음성 신호 처리 장치 및 방법
US9886963B2 (en) * 2015-04-05 2018-02-06 Qualcomm Incorporated Encoder selection
CN113571036B (zh) * 2021-06-18 2023-08-18 上海淇玥信息技术有限公司 一种低质数据的自动化合成方法、装置及电子设备

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8911153D0 (en) * 1989-05-16 1989-09-20 Smiths Industries Plc Speech recognition apparatus and methods
US5491771A (en) * 1993-03-26 1996-02-13 Hughes Aircraft Company Real-time implementation of a 8Kbps CELP coder on a DSP pair
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
CA2136891A1 (en) * 1993-12-20 1995-06-21 Kalyan Ganesan Removal of swirl artifacts from celp based speech coders
JP2897628B2 (ja) * 1993-12-24 1999-05-31 三菱電機株式会社 音声検出器
BR9610290A (pt) * 1995-09-14 1999-03-16 Ericsson Ge Mobile Inc Processo para aumentar a inteligibilidade de voz em sinais de áudio aparelho para reduzir ruído em quadros recebidos de sinais de áudio digitalizados e sistema de telecomunicações
JPH09152894A (ja) * 1995-11-30 1997-06-10 Denso Corp 有音無音判別器
SE506034C2 (sv) * 1996-02-01 1997-11-03 Ericsson Telefon Ab L M Förfarande och anordning för förbättring av parametrar representerande brusigt tal
JPH1020891A (ja) * 1996-07-09 1998-01-23 Sony Corp 音声符号化方法及び装置
JPH10124097A (ja) * 1996-10-21 1998-05-15 Olympus Optical Co Ltd 音声記録再生装置
US6233550B1 (en) * 1997-08-29 2001-05-15 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
AU4661497A (en) * 1997-09-30 1999-03-22 Qualcomm Incorporated Channel gain modification system and method for noise reduction in voice communication
US6453289B1 (en) * 1998-07-24 2002-09-17 Hughes Electronics Corporation Method of noise reduction for speech codecs
US6240386B1 (en) * 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
US6636829B1 (en) * 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008067735A1 (fr) * 2006-12-05 2008-06-12 Huawei Technologies Co., Ltd. Procédé et dispositif de classement pour un signal sonore
CN100483509C (zh) * 2006-12-05 2009-04-29 华为技术有限公司 声音信号分类方法和装置
CN102314884A (zh) * 2011-08-16 2012-01-11 捷思锐科技(北京)有限公司 语音激活检测方法与装置
CN102314884B (zh) * 2011-08-16 2013-01-02 捷思锐科技(北京)有限公司 语音激活检测方法与装置

Also Published As

Publication number Publication date
EP1312075B1 (en) 2006-03-01
AU2001277647A1 (en) 2002-03-04
CN1210685C (zh) 2005-07-13
DE60117558D1 (de) 2006-04-27
JP2004511003A (ja) 2004-04-08
CN1302460C (zh) 2007-02-28
CN1447963A (zh) 2003-10-08
WO2002017299A1 (en) 2002-02-28
ATE319160T1 (de) 2006-03-15
JP2008058983A (ja) 2008-03-13
EP1312075A1 (en) 2003-05-21
DE60117558T2 (de) 2006-08-10
US6983242B1 (en) 2006-01-03

Similar Documents

Publication Publication Date Title
CN1302460C (zh) 语音编码中噪音鲁棒分类方法和装置
CN100350453C (zh) 强壮语音分类方法和装置
CN1104710C (zh) 在语音数字传输系统中产生悦耳噪声的方法与装置
US8554550B2 (en) Systems, methods, and apparatus for context processing using multi resolution analysis
CN1106091C (zh) 噪声减少方法、噪声减少装置和电话机
CN1223989C (zh) 可变速率语音编码器中的帧擦除补偿法及用该方法的装置
CN1218295C (zh) 语音解码中语音帧差错隐蔽的方法和系统
CN1302459C (zh) 用于编码和解码非话音语音的方法和设备
CN1266674C (zh) 闭环多模混合域线性预测语音编解码器和处理帧的方法
US7269561B2 (en) Bandwidth efficient digital voice communication system and method
CN1335980A (zh) 借助于映射矩阵的宽频带语音合成
CN1241169C (zh) 语音中非话音部分的低数据位速率编码
CN1192817A (zh) 语音编码器
CN1885405A (zh) 语音速度转换装置以及语音速度转换方法
CN1441950A (zh) 处理丢失帧的语音通信系统及方法
CN1969319A (zh) 信号编码
CN1750124A (zh) 带限音频信号的带宽扩展
CN1167048C (zh) 语音编码设备和语音解码设备
US7698132B2 (en) Sub-sampled excitation waveform codebooks
CN1046366C (zh) 静态和非静态信号的鉴别
CN1313983A (zh) 噪声信号编码装置及语音信号编码装置
RU2005127871A (ru) Квантование классов для распределенного распознавания речи
CN1214362C (zh) 用于确定信号间相关系数和信号音高的设备和方法
CN1841499A (zh) 代码转换装置和方法
CN1748244A (zh) 用于分布式语音识别的音高量化

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
ASS Succession or assignment of patent right

Owner name: MENDES BEAD TECHNOLOGY CO.,LTD.

Free format text: FORMER OWNER: CONEXANT SYSTEMS INC.

Effective date: 20050708

C10 Entry into substantive examination
C41 Transfer of patent application or patent right or utility model
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20050708

Address after: American California

Applicant after: Mindspeed Technologies Inc.

Address before: American California

Applicant before: Conexant Systems, Inc.

C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: WIAV SOLUTIONS, LLC

Free format text: FORMER OWNER: MINDSPEED TECHNOLOGIES INC.

Effective date: 20120726

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20120726

Address after: Virginia

Patentee after: WIAV solutions, LLC

Address before: American California

Patentee before: Mindspeed Technologies Inc.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20070228

Termination date: 20150817

CF01 Termination of patent right due to non-payment of annual fee